统计学术语

摘要:
即从数据中收集、处理、分析、解释和得出结论的科学。它还估计和描述了数据分布状态、数字特征和随机变量之间的关系。推断统计是一种研究如何基于样本数据推断人口的数量特征,并以概率的形式对统计人口的未知数量特征进行推断的方法。它还反映了应用统计方法探索客观事物数量规律性的不同过程。当数据分布偏斜时,应用中值。它是指组中所有数据的总和除以数据的数量。
  

1、概率(proability):度量一随机事件发生可能性大小的实数,其值介于0 与1 之间。一随机事件的慨率可看作在相同条件下重复试验时,该事件发生的频率的稳定值,也可看作对事件发生的相信程度。

2、统计学(statistics):主要通过利用概率论建立数学模型,收集所观察系统的数据,进行量化的分析、总结,并进而进行推断和预测,为相关决策提供依据和参考。也就是收集、处理、分析、解释数据并从数据中得出结论的科学。主要又分为描述统计学和推断统计学。

3、描述统计(Descriptive statistics):描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。目的是描述数据特征,找出数据的基本规律。描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。

4、推断统计(Inferential Statistics):推断统计是研究如何根据样本数据来推断总体数量特征的方法,它是在对样本数据进行描述的基础上,对统计总体的未知数量特征做出以概率形式表述的推断。主要包括参数估计与假设检验两种方法。

描述统计学和推断统计学的划分,一方面反映了统计方法发展的前后两个阶段,同时也反映了应用统计方法探索客观事物数量规律性的不同过程。

5、数值型数据(metric data):按数字尺度测量的观察值,结果表现为具体的数值,对事物的精确测度,例如:身高为175cm、168cm、183cm。

6、分类数据(categorical data) :只能归于某一类别的非数字型数据,对事物进行分类的结果,数据表现为类别,用文字来表述,例如,人口按性别分为男、女两类。

7、总体(population):所研究的全部个体(数据) 的集合,其中的每一个个体也称为元素。分为有限总体和无限总体:有限总体的范围能够明确确定,且元素的数目是有限的;无限总体所包括的元素是无限的,不可数的。

8、样本 (sample):从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本容量或样本量 (sample size)。

9、变量(variable):说明现象某种特征的概念,如商品销售额、性别等,变量的具体表现称为变量值,即数据。变量基本分类可分为分类变量:说明事物类别的名称;数值型变量:说明事物数字特征的名称。其他分类可分为随机变量与非随机变量;经验变量和理论变量。

10、平均数(mean):是统计学中最常用的统计量,用来表明资料中各观测值相对集中较多的中心位置,易受极端值的影响,是反映数据集中趋势的一项指标。它包括算术平均数、加权算术平均数、调和平均数和几何平均数。

11、众数(mode):是指一组数据中出现次数最多的变量值(数据值),不受极端值的影响,一组数据可能没有众数或有几个众数。众数适合于数据量较多时,并且在数据分布偏斜程度较大且有明显峰值时应用。

12、中位数(median):是另外一种反映数据的中心位置的指标,其确定方法是将所有数据以由小到大的顺序排列,位于中央的数据值就是中位数,不受极端值的影响。中位数在数据分布偏斜程度较大时应用。

13、四分位数(quartile):一组数据中,把所有数值由小到大排列并分成四等份,处于三个分割点位置的数据就是四分位数,不受极端值的影响。四分位数在统计学中的箱线图绘制方面应用较为广泛。

14、算术平均数(Arithmetic mean)简称平均数、均数或均值,是指在一组数据中所有数据之和再除以数据的个数。它是反映数据集中趋势的一项指标。算术平均数易受极端数据的影响,这是因为平均数反应灵敏,每个数据的或大或小的变化都会影响到最终结果。

15、加权平均数(Weighted mean)是不同比重数据的平均数,加权平均数就是把原始数据按照合理的比例来计算。加权算术平均数主要用于处理经分组整理的数据。加权算术平均数同时受到两个因素的影响,一个是各组数值的大小,另一个是各组分布频数的多少。

16、调和平均数(Harmonic mean)

调和平均数是总体各单位标志值倒数的算术平均数的倒数,也称倒数平均数。调和平均数易受极端值的影响,且受极小值的影响比受极大值的影响更大。只要有一个变量值为零,就不能计算调和平均数。调和平均数应用的范围较小。

17、几何平均数(Geometric mean)

n个变量值乘积的n次方根就是几何平均数。适用于对比率数据的平均,主要用于计算平均增长率。

18、众数(mode)

是指一组数据中出现次数最多的变量值(数据值),不受极端值的影响,一组数据可能没有众数或有几个众数。众数适合于数据量较多时,并且在数据分布偏斜程度较大且有明显峰值时应用。

19、中位数(median)

是另外一种反映数据的中心位置的指标,其确定方法是将所有数据以由小到大的顺序排列,位于中央的数据值就是中位数,不受极端值的影响。中位数在数据分布偏斜程度较大时应用。

20、四分位数(quartile)

一组数据中,把所有数值由小到大排列并分成四等份,处于三个分割点位置的数据就是四分位数,不受极端值的影响。四分位数在统计学中的箱线图绘制方面应用较为广泛。

21、极差(range)

一组数据的最大值与最小值之差,极差也称为全距。它是数据离散程度的最简单测度值,极差越大,离散程度越大,反之,离散程度越小。极差易受极端值影响,未考虑数据的分布。

22、平均差(mean deviation)

各标志值与其平均数离差绝对值的平均数。平均差是一种平均离差。离差是总体各单位的标志值与算术平均数之差。因离差和为零,离差的平均数不能将离差和除以离差的个数求得,而必须讲离差取绝对数来消除正负号。

23、方差(variance)

是各个数据与平均数之差的平方和的平均数,表示一系列数据或统计总体的分布特征的值。通俗点讲,就是和中心偏离的程度,用来衡量一批数据的波动大小(即这 批数据偏离平均数的大小)并把它叫做这组数据的方差。在样本容量相同的情况下,方差越大,说明数据的波动越大,越不稳定。

24、标准差(Standard Deviation)

也称均方差,是各数据偏离平均数的距离的平均数,它是离均差平方和平均后的方根。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的,标准差未必相同。

25、变异系数(coefficient of variation)

又称“标准差率”,表示离散程度,是标准差和相应平均数的比值,记为C.V。当进行两组或多组数据离散程度的比较时,如果度量单位与平均数相同,可以直接 利用标准差来比较。如果单位和(或)平均数不同时,比较其离散程度就不能采用标准差,而需采用标准差与平均数的比值(相对值)来比较。

简单来说就是:在表示离散程度上,标准差并不是全能的,当度量单位或平均数不同时,只能用变异系数了,它也是表示离散程度,是标准差和相应平均数的比值。

26、偏度(skewness)

是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。偏度=0为对称分布,偏度> 0为右偏分布,偏度< 0为左偏分布。

27、峰度(kurtosis)

是用来反映频数分布曲线顶端尖峭或扁平程度的指标。有时两组数据的算术平均数、标准差和偏度都相同,但他们分布曲线顶端的高耸程度却不同。峰度=0扁平峰度适中,峰度<0为扁平分布,峰度>0为尖峰分布。

28、分组

根据统计研究的目的和客观现象的内在特点,按某个标志(或几个标志)把被研究的总体划分为若干个不同性质的组,称为统计分组。有等距分组和不等距分组两种方式,进行分组要遵循两个原则:穷尽原则、互斥原则。

29、频数(frequency)

频数是指一组数据中个别数据重复出现的次数。例如某校A班学生共50名同学,按性别进行分组,分为男与女两个组别,男同学的频数为30,女同学的频数为20。

30、频率

频率是每个小组的频数与数据总数的比值,它代表某组在总体中出现的频繁程度,一般采用百分数表示,所有组的频率加总等于100%。

31、绝对数

是反映客观现象总体在一定时间、地点条件下的总规模、总水平的综合性指标,也是数据分析中常用的指标,如GDP、总人口等。此外,绝对数也可以表现为在一定时间、地点条件下数量增减变化的绝对数,比如A国人口比B国人口多1000万人。

32、相对数

是指由两个有联系的指标对比计算而得到的数值,用以反映客观现象之间数量联系程度的综合指标。计算公式=比较数值(比值)/基础数值(基数)。分母是用做 对比标准的指标数值,简称基数;分子是用做与基数对比的指标数值,简称比数。相对数一般以倍数、成数、百分数等表示,它反映了客观现象之间数量联系的程 度。

使用相对数时需要注意指标的可比性,同时要与总量指标(绝对数)结合使用。

33、百分比(percent)

百分比是相对数中的一种,它表示一个数是另一个数的百分之几,也称百分率或百分数。百分比通常采用百分号(%)来表示,如8%,50%,168%等。由于百分比的分母都是100,也就是都以1%作为度量单位,因此便于比较,在数据分析中的应用非常广泛。

34、百分点

是指不同时期以百分数的形式表示的相对指标的变动幅度,1个百分点=1%。常有人混淆了百分比与百分点的概念。表示构成的变动幅度不宜用百分数,而应用百分点。

35、比例

是指在总体中,各部分的数值占全部数值的比重,通常反映总体的构成和结构。比如A班共有学生50人,男生30人,女生20人,则男生的比例是30/50,女生的比例是20/50。由此可以看出,比例的基数(也就是分母)都是全体学生人数,即为同一个基数。

36、比率
是指不同类别数值的对比,它反映的不是部分与整体之间的关系,而是一个整体中各部分之间的关系。比如A班共有学生50人,男生30人,女生20人,则男生 与女生的比率是30/20,这一指标经常会用在社会经济领域,比如我国的人口性别比就是用每100名女性数量相对的男性数量来表示的。

37、 倍数
是一个数除以另一个数所得的商。如A÷B=C,就是说A是B的C倍。需要注意的是,倍数一般是表示数量的增长或上升幅度,而不适用于表示数量的减少或下降。

38、番数
是指原来数量的2的N次方倍。比如翻一番为原来数量的2倍(2的1次方),翻两番为4倍(2的2次方)。

39、同比
为与历史同时期进行比较得到的数值,该指标主要反映的是事物发展的相对情况。例如2010年12月与2009年12月相比。

40、环比
为与前一个统计期进行比较得到的数值,该指标主要反映的是事物逐期发展的情况。例如2010年12月与2010年11月相比。

免责声明:文章转载自《统计学术语》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇盈动线性绝对值编码器(光栅尺)的测试记录Linux下尝鲜IDE Rider .NET又一开发利器下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

随便看看

故障排查:vsftpd无法用浏览器访问

CentOS6上设置的ftp服务器突然无法使用浏览器访问,但可以使用xftp等工具正常访问。据推测,阿里云的安全组设置之前已经过修改,这可能与1)修改vsftpd的配置,在被动模式下手动指定一个随机连接端口,并添加以下内容:passv_min_port=50000pasv_max_port=60000 02)如果只打开端口20和21,设置阿里云安全组控制端口...

如何更改SQL Server2008默认数据库的存储路径

1.在安装SQlServer时,修改路径:当然,也可以修改共享函数目录和实例根目录。但是,我不知道共享函数目录和实例根目录是什么。...

Linux系统glibc库版本信息查看

有时我们经常需要检查当前系统的glibc版本。您可以按如下方式进行检查:/lib/libc。所以。6有时:/lib/x86-64-linux/libc。因此6.将文件作为命令执行。为什么库可以直接运行?Glibc是gnu发布的libc库,即c运行时。glibc是linux系统中最低级别的api,几乎任何其他运行时都将依赖glibc。Gcc和libc是相互依赖...

四、使用ADB命令清除缓存

1、 ADBShell应用程序查看目录结构:adbshells查看系统当前日期:adbselldate查看系统CPU使用情况:adbsHELcat/proc/cpuinfo查看系统内存使用情况:adbshellcat/proc/meminfo显示所有应用程序:adbshelpmlistpackages显示系统自带的应用程序:adshellpmlistpack...

Java 读取ANSI文件中文乱码问题解决方式[转]

Filefile=newFile(路径);InputStreamin=newjava.io.FileInputStream(文件);BufferedReader读取器=新的BufferedReader(读取);FileInputStreamin=newFileInputStream(文件);byte[]b=新字节[3];内容如下(b);...

JS获取当前时间

如果有更好的方法,请提出建议。进一步解释如下:varmyDate=newDate();我的日期。getYear();//获取当前年份(2位数)myDate getFullYear();//获取完整的年份(4位数,1970-???=0)||);}//----------------------------------------------//日期格式//格式...