平均值(Mean)、方差(Variance)、标准差(Standard Deviation) 区别

摘要:
表示分散程度的数值单位与样本数据的单位一致,更便于后续分析计算。贝塞尔校正在上述方差公式和标准差公式中,有一个值为N的分母,其功能是对计算的累积偏差进行平均,以消除数据集大小对数据离散度计算的影响。平均值和标准差的适用范围和误用大多数统计指标都有其适用范围,包括平均值、方差和标准差。适用的数据集必须满足以下条件:中间为单峰:数据集中只有一个峰。

原文链接:https://blog.csdn.net/xidiancoder/article/details/71341345


对于一维数据的分析,最常见的就是计算平均值(Mean)、方差(Variance)和标准差(Standard Deviation)。在做【特征工程】的时候,会出现缺失值,那么经常会用到使用 平均值 或者 中位数等进行填充。

平均值

平均值的概念很简单:所有数据之和除以数据点的个数,以此表示数据集的平均大小;其数学定义为

平均值(Mean)、方差(Variance)、标准差(Standard Deviation) 区别第1张


以下面10个点的CPU使用率数据为例,其平均值为17.2。

14 31 16 19 26 14 14 14 11 13

方差、标准差


方差这一概念的目的是为了表示数据集中数据点的离散程度;其数学定义为:

平均值(Mean)、方差(Variance)、标准差(Standard Deviation) 区别第2张


标准差与方差一样,表示的也是数据点的离散程度;其在数学上定义为方差的平方根:

平均值(Mean)、方差(Variance)、标准差(Standard Deviation) 区别第3张


为什么使用标准差?


与方差相比,使用标准差来表示数据点的离散程度有3个好处:

表示离散程度的数字与样本数据点的数量级一致,更适合对数据样本形成感性认知。依然以上述10个点的CPU使用率数据为例,其方差约为41,而标准差则为6.4;两者相比较,标准差更适合人理解。
表示离散程度的数字单位与样本数据的单位一致,更方便做后续的分析运算。


在样本数据大致符合正态分布的情况下,标准差具有方便估算的特性:66.7%的数据点落在平均值前后1个标准差的范围内、95%的数据点落在平均值前后2个标准差的范围内,而99%的数据点将会落在平均值前后3个标准差的范围内。
贝赛尔修正


在上面的方差公式和标准差公式中,存在一个值为N的分母,其作用为将计算得到的累积偏差进行平均,从而消除数据集大小对计算数据离散程度所产生的影响。不过,使用N所计算得到的方差及标准差只能用来表示该数据集本身(population)的离散程度;如果数据集是某个更大的研究对象的样本(sample),那么在计算该研究对象的离散程度时,就需要对上述方差公式和标准差公式进行贝塞尔修正,将N替换为N-1:
经过贝塞尔修正后的方差公式:

平均值(Mean)、方差(Variance)、标准差(Standard Deviation) 区别第4张


经过贝塞尔修正后的标准差公式:

平均值(Mean)、方差(Variance)、标准差(Standard Deviation) 区别第5张


公式的选择


是否使用贝塞尔修正,是由数据集的性质来决定的:如果只想计算数据集本身的离散程度(population),那么就使用未经修正的公式;如果数据集是一个样本(sample),而想要计算的则是样本所表达对象的离散程度,那么就使用贝塞尔修正后的公式。在特殊情况下,如果该数据集相较总体而言是一个极大的样本 (比如一分钟内采集了十万次的IO数据) — 在这种情况下,该样本数据集不可能错过任何的异常值(outlier),此时可以使用未经修正的公式来计算总体数据的离散程度。

平均值与标准差的适用范围及误用
大多数统计学指标都有其适用范围,平均值、方差和标准差也不例外,其适用的数据集必须满足以下条件:

中部单峰:

数据集只存在一个峰值。很简单,以假想的CPU使用率数据为例,如果50%的数据点位于20附近,另外50%的数据点位于80附近(两个峰),那么计算得到的平均值约为50,而标准差约为31;这两个计算结果完全无法描述数据点的特征,反而具有误导性。

这个峰值必须大致位于数据集中部。还是以假想的CPU数据为例,如果80%的数据点位于20附近,剩下的20%数据随机分布于30~90之间,那么计算得到的平均值约为35,而标准差约为25;与之前一样,这两个计算结果不仅无法描述数据特征,反而会造成误导。

遗憾的是,在现实生活中,很多数据分布并不满足上述两个条件;因此,在使用平均值、方差和标准差的时候,必须谨慎小心。

如果数据集仅仅满足一个条件:单峰。那么,峰值在哪里?峰的宽带是多少?峰两边的数据对称性如何?有没有异常值(outlier)?为了回答这些问题,除了平均值、方差和标准差,需要更合适的工具和分析指标,而这,就是中位数、均方根、百分位数和四分差的意义所在。


免责声明:文章转载自《平均值(Mean)、方差(Variance)、标准差(Standard Deviation) 区别》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇数字签名解决c# md5与php md5加密不一致的问题(md5(unicode))下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

假设检验(Hypothesis Testing)

假设检验的定义 假设检验:先对总体参数提出某种假设,然后利用样本数据判断假设是否成立。在逻辑上,假设检验采用了反证法,即先提出假设,再通过适当的统计学方法证明这个假设基本不可能是真的。(说“基本”是因为统计得出的结果来自于随机样本,结论不可能是绝对的,所以我们只能根据概率上的一些依据进行相关的判断。) 假设检验依据的是小概率思想,即小概率事件在一次试验中基...

变异系数(离散系数)

事件还原         在一次数据清洗过程中,需要将多方数据库进行整合,将各类数据分别由不同的小组去处理,开始需要一个指标来衡量各类数据整合的契合度,也就是离散程度,所以一开始采用了标准差来衡量;        后来又需要将各类数据的清洗情况做一个排名,因为各类数据的数据量不同,量大的方差也大,没办法横向比较,想到可以用方差除以平均数来消除数据量的影响...

时序数据库InfluxDB使用详解

InfluxDB是一个开源的时序数据库,使用GO语言开发,特别适合用于处理和分析资源监控数据这种时序相关数据。而InfluxDB自带的各种特殊函数如求标准差,随机取样数据,统计数据变化比等,使数据统计和实时分析变得十分方便。在我们的容器资源监控系统中,就采用了InfluxDB存储cadvisor的监控数据。本文对InfluxDB的基本概念和一些特色功能...

统计学中抽样比例一般占百分之多少

要具体问题具体分析,一般和要求的误差限、置信区间及总体方差有关系.比如最基本的简单随机抽样,其样本量确定公式就是1/n=1/N+d^2/(u^2*S^2).样本量和误差限成反比,和置信区间及总体方差成正比.请问一堆url怎么算方差。(。。。)...

matplotlib添加子图(拼图功能)

  我们已经知道,matplotlib是python中的一个十分好用的作图库,它的简单的使用方法可以在之前的随笔中找到。传送门:https://www.cnblogs.com/chester-cs/p/11879444.html   之前没有涉及到的是一个用途十分广泛的功能:子图(拼图功能),想象我们有四个对比曲线图,是一个问题不同的算法实现结果。假如一个...

R语言-混合型数据聚类

利用聚类分析,我们可以很容易地看清数据集中样本的分布情况。以往介绍聚类分析的文章中通常只介绍如何处理连续型变量,这些文字并没有过多地介绍如何处理混合型数据(如同时包含连续型变量、名义型变量和顺序型变量的数据)。本文将利用 Gower 距离、PAM(partitioning around medoids)算法和轮廓系数来介绍如何对混合型数据做聚类分析。 --...