数据之魅(1)单一变量:形状和分布

摘要:
累积分布曲线有时被称为升力曲线。测量分配的位置。一旦分布变得扭曲,基于平均值测量分布位置的基本假设不再有效,最好使用中值。最常用的量是四分位数间隔,即第75百分位数和第25百分位数之间的距离。方框和晶须方框图包括以下元素:1.中值标记2.一个跨越四分位间距的方框,用于测量分布的宽度3.一些线条晶须,从中间方框延伸到上下临界值4.除临界值外的所有值的单个符号,表示异常值

一、分布

关注分布的总体形状,关注要点:

数据分布

最值

数据集是大是小

是否有聚类

极异常数据

不寻常或显著的特征:空白段、锐减、异常值等

二、数据点和抖动图jitter plot

抖动jittering

用透明的开环作为数据点的符号

三、直方图histogram和核密度估计KDE

直方图不能很优雅地处理一些异常点

形成一个KDE就相当于对数据集的核函数做一次卷积

四、累计分布函数CDF cumulative distribution function

能对数据做出定量的描述

五、秩序图和上升图

如果自变量没有固定顺序,或没有有意义的顺序关系时,最好能按因变量进行排序

累计分布曲线有时候也称为升力曲线lift curve。

六、汇总统计量和箱型图

在假设绝对正确的情况下,汇总统计量是有意义的,否则可能会误导

平均数、分位数和相关的摘要统计只适用于单一中心峰的分布---即单峰unimodal分布

m:平均数

s:标准差

实际情况的很多数据集,可以预计大约有2/3的数据点落在[m-s, m+s]区段中,

99%的数据点落在[m-3s, m+3s]区段中。

中位数:数据集中有一半比它大,有一半比它小。衡量分布的位置。一旦分布变得扭曲,基于均值测量分布的位置的基本假设就不再成立,此时用中位数更好。

百分位数是将这个概念推广到其他比例。第10百分位数是,数据集中有10%的点的值比它小。可以使用百分位数来构建一个测量分布宽度的量。最常用的量是四分位数间距,是第75百分位数和第25百分位数之间的距离。

Box-and-Whisker箱型图

包含以下要素:

1、中位数标记

2、一个盒子,跨越四分位数间距,用于测量分布的宽度

3、一些线条whisker,从中间的盒子延伸到上下临界值

4、临界值以外的所有值的单个符号,代表异常值

 

免责声明:文章转载自《数据之魅(1)单一变量:形状和分布》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇openldap系列易失性存储器SRAM基础知识下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

数据库主键到底是用自增长(INT)好还是UUID好

  其实针对使用自增长还是UUID,大家讨论最多的就是速度和存储空间,这里我加入了安全性和分布式,具体对比如下: 使用自增长做主键的优点:1、很小的数据存储空间2、性能最好3、容易记忆使用自增长做主键的缺点:1、如果存在大量的数据,可能会超出自增长的取值范围2、很难(并不是不能)处理分布式存储的数据表,尤其是需要合并表的情况下3、安全性低,因为是有规律的,...

关于WinForm中的DataGridView控件显示数据字典的解决方案。

做这部分功能的时候,上网搜索了很多资料,发现很少涉及到这方面的解决方案,找了相关的问题帖子,很多人都叫使用视图去处理,当然,用视图是可以解决这个问题,但是,这么多个表,都用视图去搞,那还得做这么多个视图...........这肯定不科学了。还有如果用视图去做,那么数据实体就与实际的表不一致了,所以,我们需要找到一个解决DataGridView的某个列需要按...

云小课|DGC数据开发之基础入门篇

阅识风云是华为云信息大咖,擅长将复杂信息多元化呈现,其出品的一张图(云图说)、深入浅出的博文(云小课)或短视频(云视厅)总有一款能让您快速上手华为云。更多精彩内容请单击此处。 摘要:欢迎来到DGC数据开发的世界,花十分钟跟着云小课一起学习云数据开发。本文主要介绍DGC数据开发的基本概念、优势、应用场景及数据开发的示例,帮助您快速掌握智能数据开发。 本文...

ASP.NET输出JSON格式数据

最近在开发Windows8 Metro App,使用JavaScript和HTML开发环境。所以操作数据绑定都是使用JSON格式数据。后台使用的是ASP.NET,因为项目相对较小,所有后台没有使用数据库,使用的XML来保存数据。前台需要请求后台返回JSON格式的数据,比如要求返回一个eventslist,后台操作XML的方法省略。主要讨论如何使用Hasht...

GAN作用——在我做安全的看来,就是做数据拟合、数据增强

from:https://www.zhihu.com/question/56171002/answer/155777359GAN的作用,也就是为什么GAN会火了(有部分原因可能是因为Lecun的赞赏)。如果GAN只是用来生成一些像真是数据一样的数据的话,那不会有像现在这么火。更多的,或者对于机器学习研究员来说,看待的最关键一点应该是GAN可以用来 拟合数据...

Oracle 修改现有列的数据类型

如果表中有数据,Oracle是不能修改其数据类型的。但可以通过新建一个临时列,将要修改列的数据复制到临时列中,删除原列再修改临时列的名字。这样说好像有点拗口,分步解说一下。 表AC_REG中有列:is_active,原来是字符类型的,目标是将它改为数值类型 ---目标将IS_ACTIVE改为数值型 --新增一列 alter table AC_REG a...