离群值检测

摘要:
这些异常值与样本的其他观察值属于统一的总体;样本中的这些异常值和其他观察值不属于统一的总体。异常值检测方法1。Rhineda准则(Layida准则)Z-score标准化辅助识别离群值,Z-score值代表原始样本x和样本均值μ。

离群值检测

离群值

outlier:样本中的一个或几个观测值,它们离其他观测值较远,暗示它们可能来自不同的总体。

离群值分类

  • 总体固有变异性的极端表现,这类离群值与样本的其余观测值属于统一总体;
  • 由于试验条件和试验方法的偶然偏离所产生的结果,或产生与观察、记录、计算中的失误,这类离群值与样本中其余观测值不属于统一总体。

数学小知识

方差
离群值检测第1张

标准差
离群值检测第2张

​ 标准差能反映一个数据集的离散程度。

离群值检测方法

一、莱茵达准则(拉依达准则)
  • Z-score标准化辅助识别离群值,Z-score值表示原始样本x和样本均值μ之间的距离,而且这个距离以标准差σ为单位进行计算:Z-score(x)=(x-μ)/σ

  • 得到样本的Z-score值后,通常将满足条件|Z-score(x)|>3的样本视为离群值(3σ法)。
    离群值检测第3张

  • 正态曲线下:

    • 横轴区间(μ-σ,μ+σ)内的面积为68.268949%。

      P{|X-μ|<σ}=2Φ(1)-1=0.6826

    • 横轴区间(μ-1.96σ,μ+1.96σ)内的面积为95.449974%。

      P{|X-μ|<2σ}=2Φ(2)-1=0.9544

    • 横轴区间(μ-2.58σ,μ+2.58σ)内的面积为99.730020%。

      P{|X-μ|<3σ}=2Φ(3)-1=0.9974

二、箱线图
  • 箱形图也叫箱线图,是检验样本数据中异常值的常用方法,与3σ法不同,箱形图法既可以用作服从正态分布样本数据异常值判断,也可以用作不服从正态分布样本数据异常值判断,适用范围广。

  • 箱线图由最大值、上四分位数(Q3)、中位数(Q2)、下四分位数(Q1)和最小值五个统计量构成,Q1到Q3的间距为IQR,箱两端分别为上四分位数 (Q3)、下四分位数 (Q1) , 最大值、最小值分别为箱两端的须, 箱线图法中样本数据大于Q3+1.5IQR和小于Q-1.5IQR定义为异常值 (outlier) .箱线图结构下图所示.
    离群值检测第4张

  • Python做图示例
    离群值检测第5张

三、基于近邻判断离群值
  • 对样本的离群程度进行量化,分数由它与K个最近邻的距离决定,分数的取值[0,+∞]:

    • 计算每一个样本与其最近的K个近邻样本的距离,放到集合C中。
    • 对C中的所有元素进行降序排列。
    • 根据给定的距离阈值,选取C中大于给定阈值的距离所对应的样本作为离群值。
  • 距离计算

    • 欧氏距离
      离群值检测第6张

    • 曼哈顿距离
      离群值检测第7张

欧式距离的缺点
  • 欧式距离看起来非常合理,例如二维下的欧式距离就是勾股定理算距离,但是合理性这个需要在统一测量尺度的前提下,例如两个维度分别是{身高1700mm、体重0.060T},{身高1900mm、体重0.080T}这类数据肯定是身高特征对两点的距离影响大。但是两个维度特征是平等的,就因为测量尺度不统一,造成身高对两点的距离影响大,这就不合理了。

  • 马氏距离

    表示数据的协方差距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是,它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的),并且是尺度无关的(scale-invariant),即独立于测量尺度。
    3_in_1_out

---以上总结参考于《数据科学导引》,国家标准GBT 4883-2008 数据的统计处理和解释 正态样本离群值的判断和处理

免责声明:文章转载自《离群值检测》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇【转】nodejs获取post请求发送的formData数据nuxt中简单使用swiper下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

读书笔记:深入理解ES6(十)

第十章 改进的数组功能   ES6标准在ES5的基础上,继续改进数组,为数组添加了很多新功能。例如:创建数组的新方法、几个实用便捷的方法及创建定型数组(Typed Array)的能力。本章一一讲解这些新特性。 第1节 创建数组   1. 传统的创建数组的方法。   在ES6以前,创建数组的方式有两种:一种是调用Array构造函数,一种是使用数组自面量语法。...

vue 数据(data)赋值问题

总结一下我遇到的一个纠结很久的问题。 在项目中需要用到后台的数据对前端渲染,使用到了vue整合的axios,使用vue中的钩子函数在页面组件挂载完成之后向后台发送一个get请求然后将返回后的数据赋值data()中定义的属性: 执行后前端报错: 原因: 在请求执行成功后执行回调函数中的内容,回调函数处于其它函数的内部this不会与任何对象绑定,为und...

RabbitMQ面试题

1、为什么要引入MQ系统,直接读写数据库不行吗?其实就是问问你消息队列都有哪些使用场景,然后你项目里具体是什么场景,说说你在这个场景里用消息队列是什么? 面试官问你这个问题,期望的一个回答是说,你们公司有个什么业务场景,这个业务场景有个什么技术挑战,如果不用 MQ 可能会很麻烦,但是你现在用了 MQ 之后带给了你很多的好处。 先说一下消息队列常见的使用场景...

ASP.NET Web Game 构架设计2数据库设计

ASP.NETWebGame构架设计2--数据库设计   前一篇Blog对WebGame服务器的物理结构做了一个简要说明,下面我们对各个组成元素进行详细说明。            首先来看一下数据库设计。            游戏的数据库设计是项目基础设计中很重要的一个环节,下面将说明以下几个要点: u  为什么选用SqlServer u  基本原则...

Jmeter之关联——常用提取器

Jmeter关联所谓关联,从业务角度讲,即:某些操作步骤与其相邻步骤存在一定的依赖关系,导致某个步骤的输入数据来源于上一步的返回数据,这时就需要“关联”来建立步骤之间的联系。 简单来说,就是:将上一个请求的响应结果作为下一个请求的参数。。。 这里的提取器,都可以作为jmeter中关联的使用。 一、边界提取器 参数:前三个就不做介绍了; (4)匹配数字:-1...

Teamcenter案例展示

01项目背景 为了满足竞争日益激烈的多元化市场需求,工艺设计周期短、任务重,同时对工艺设计质量及投产周期提出了更高的要求。但目前工艺系统主要侧重于结果管理(文档),制约业务能力的提升: 1)  依靠检查表、标杆库等文件或个人经验分析产品的工艺可行性,缺少有效的工具、方法, 产品设计阶段工艺可行性分析不充分,在NC阶段后提出大量变更; 2) 工艺设计与验证:...