变异系数（离散系数）变异系数越大离散程度越小?

变异系数（离散系数）

摘要：

变异系数也称为标准偏差率或单位风险。变异系数仅对从比率标量计算的值有意义。变异系数是衡量数据中每个观测值变异程度的另一个统计数据。标准偏差与平均值的比值称为变异系数，记为C·V。变异系数是一个无量纲量，因此当比较两组不同维度或不同平均值的数据时，变异系数应作为比较的参考，而不是标准偏差。变异系数小于1的分布，如Erlang分布，称为低差分，而变异系数大于1的分布（如超指数分布）称为高差分。

事件还原

在一次数据清洗过程中，需要将多方数据库进行整合，将各类数据分别由不同的小组去处理，开始需要一个指标来衡量各类数据整合的契合度，也就是离散程度，所以一开始采用了标准差来衡量；
后来又需要将各类数据的清洗情况做一个排名，因为各类数据的数据量不同，量大的方差也大，没办法横向比较，想到可以用方差除以平均数来消除数据量的影响，后来在网上查到这个公式叫变异系数，也叫离散系数，所以记录下来以免忘记；
书到用时方恨少，早知道这个公式直接拿来用就行，就不用费脑筋了；
以下内容来自百度；

概念

在概率论和统计学中，变异系数，又称“离散系数”（英文：coefficient of variation），是概率分布离散程度的一个归一化量度，其定义为标准差与平均值之比：
变异系数（coefficient of variation）只在平均值不为零时有定义，而且一般适用于平均值大于零的情况。变异系数也被称为标准离差率或单位风险。
变异系数只对由比率标量计算出来的数值有意义。举例来说，对于一个气温的分布，使用开尔文或摄氏度来计算的话并不会改变标准差的值，但是温度的平均值会改变，因此使用不同的温标的话得出的变异系数是不同的。也就是说，使用区间标量得到的变异系数是没有意义的。
一般来说，变量值平均水平高，其离散程度的测度值越大，反之越小。
变异系数是衡量资料中各观测值变异程度的另一个统计量。当进行两个或多个资料变异程度的比较时，如果度量单位与平均数相同，可以直接利用标准差来比较。如果单位和（或）平均数不同时，比较其变异程度就不能采用标准差，而需采用标准差与平均数的比值（相对值）来比较。标准差与平均数的比值称为变异系数，记为C·V。变异系数可以消除单位和（或）平均数不同对两个或多个资料变异程度比较的影响。
变异系数的计算公式为：变异系数 C·V =（标准偏差 SD / 平均值Mean ）× 100%
在进行数据统计分析时，如果变异系数大于15%，则要考虑该数据可能不正常，应该剔除。

公式

C.V = (SD ÷ MN) × 100%
(标准偏差SD、平均值MN)

应用

优点
1、比起标准差来，变异系数的好处是不需要参照数据的平均值。变异系数是一个无量纲量，因此在比较两组量纲不同或均值不同的数据时，应该用变异系数而不是标准差来作为比较的参考。
缺陷
1、当平均值接近于0的时候，微小的扰动也会对变异系数产生巨大影响，因此造成精确度不足。
2、变异系数无法发展出类似于均值的置信区间的工具。
应用场景
变异系数在概率论的许多分支中都有应用，比如说在更新理论、排队理论和可靠性理论中。在这些理论中，指数分布通常比正态分布更为常见。
由于指数分布的标准差等于其平均值，所以它的变异系数等于一。变异系数小于一的分布，比如爱尔朗分布称为低差别的，而变异系数大于一的分布，如超指数分布则被称为高差别的。

免责声明：文章转载自《变异系数（离散系数）》仅用于学习参考。如对内容有疑问，请及时联系本站处理。

平均值(Mean)、方差(Variance)、标准差(Standard Deviation) 区别

原文链接：https://blog.csdn.net/xidiancoder/article/details/71341345 对于一维数据的分析，最常见的就是计算平均值(Mean)、方差(Variance)和标准差(Standard Deviation)。在做【特征工程】的时候，会出现缺失值，那么经常会用到使用平均值或者中位数等进行填充。平均值...

变异系数（离散系数）

相关文章

平均值(Mean)、方差(Variance)、标准差(Standard Deviation) 区别

最新文章

随机推荐

思享工具箱导航

JSON工具

格式化转换

加解密编码

文本数字

网络

站长

计算

其他

对照列表