统计学基础知识(一)---描述统计(Descriptive Statistics)

摘要:
总体均值---μ;样本均值---。四分位数:将所有数据按升序排列,然后等分为四部分,处在25%位置上的数值称为下四分位数Q1,处在50%位置上的数值称为Q2,处在75%位置上的数值称为上四分位数Q3。

描述统计(Descriptive Statistics):将数据的信息以表格,图形或数值的形式进行汇总。

数据类型:分为定量数据(数值型数据)和定性数据(类别型数据)。数值型数据又可以分为连续型和离散型,类别型数据又可以分为有序型和无序型。

定性数据:

频数(frequency):数据出现的次数。

相对频数(relative frequency):数据出现的次数/总次数。

百分数(percentage):数据出现的次数/总次数*100%。

定量数据:

平均数(mean):总数值除以总数。总体均值---μ;样本均值---统计学基础知识(一)---描述统计(Descriptive Statistics)第1张

注:这里说的平均数是算术平均数,其他还有加权平均数(weighted mean),几何平均数(geometric mean)和调和平均数。

中位数(median):将所有数据按升序排列,当数据个数是奇数时,中位数就是位于中间的数值,当数据个数是偶数时,中位数就是位于中间的两个数值的平均值。

众数(mode):出现次数最多的数据。

四分位数(quartile):将所有数据按升序排列,然后等分为四部分,处在25%位置上的数值称为下四分位数Q1,处在50%位置上的数值称为Q2,处在75%位置上的数值称为上四分位数Q3。

极差(range):最大值-最小值。

四分位间距(interquartilerange, IQR):第三分位数(Q3)-第一分位数(Q1)。

方差(variance):用于度量数据间的变异程度。总体方差---统计学基础知识(一)---描述统计(Descriptive Statistics)第2张;样本方差---统计学基础知识(一)---描述统计(Descriptive Statistics)第3张

标准差(standard deviation):方差的平方根。总体标准差---σ;样本标准差---s。

标准值(z-score):某个数值离开平均数有多少个标准差的距离。

注:定量数据可以用分箱的方式转换为定性变量,以此可以再用频数,百分数表示。

免责声明:文章转载自《统计学基础知识(一)---描述统计(Descriptive Statistics)》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇ffmpeg编译与移植问题Reactjs相比较原生方案是绝对的快吗?哪些情况下React有优势下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

转:和机器学习和计算机视觉相关的数学

1. 线性代数 (Linear Algebra): 我想国内的大学生都会学过这门课程,但是,未必每一位老师都能贯彻它的精要。这门学科对于Learning是必备的基础,对它的透彻掌握是必不可少的。我在科大一年级的时候就学习了这门课,后来到了香港后,又重新把线性代数读了一遍,所读的是 Introduction to Linear Algebra (3rd...

R语言︱机器学习模型评价指标+(转)模型出错的四大原因及如何纠错

  R语言︱机器学习模型评价指标+(转)模型出错的四大原因及如何纠错 笔者寄语:机器学习中交叉验证的方式是主要的模型评价方法,交叉验证中用到了哪些指标呢? 交叉验证将数据分为训练数据集、测试数据集,然后通过训练数据集进行训练,通过测试数据集进行测试,验证集进行验证。 模型预测效果评价,通常用相对绝对误差、平均绝对误差、根均方差、相对平方根误差等指标来衡...

《统计学习方法》笔记--蒙特卡洛法

蒙特卡洛法(Monte carlo method),也称为统计模拟方法,通过从概率模型的随机抽样进行近似数值计算的方法。 它要解决的问题是,假设概率分布的定义已知,通过抽样获得概率分布的随机样本,并通过得到的随机样本对概率分布的特征进行分析。故这种方法的核心即是随机抽样。 一般的蒙特卡洛法有直接抽样法、接受-拒绝抽样法、重要性抽样法等。 接受-拒绝抽...

Stata—变量名称、描述和列举变量、标签使用、基本统计

1.变量名称 基本规则:由英文字母、数字或者_组成;需以英文字母或者_作为开头,区分大小写。 举例合理名称:a1 ,a_1,_a1 注意事项:“_”一般不作为首字母(因许多内部变量由“_”加字母组成,避免混淆) 2.查看资料命令 describe(可简写为des):查看所有变量的结构,如何时建立数据库,变量名称,储存类型,变量的显示格式,变量标签等 des...

SPSS超详细操作:分层回归(hierarchical multiple regression)

SPSS超详细操作:分层回归(hierarchical multiple regression) 1、问题与数据 最大携氧能力(maximal aerobic capacity, VO2max)是评价人体健康的关键指标,但因测量方法复杂,不易实现。某研究者拟通过一些方便、易得的指标建立受试者最大携氧能力的预测模型。 目前,该研究者已知受试者的年龄和性别与...

《机器学习导论》札记

《机器学习导论》 (土耳其)Ethem Alpaydin 著   范明等译。 1.1 什么是机器学习 1)机器学习方法在大型数据库中的应用称为数据挖掘(data mining)。数据挖掘也称数据库知识发现(knowledge discovery in databases,KDD) 1.2 机器学习的应用实例  1.2.1 学习关联性  (条件概率)  1....