【一致性检验指标】Kappa(cappa)系数

摘要:
该公众号回复称,有精选的免费机器学习材料。公众号每天都会更新一点机器学习和深度学习的知识,这是面试官会问的知识点。公众号每天都会更新一点机器学习和深度学习的知识,这是面试官会问的知识点~

1 定义

百度百科的定义:

它是通过把所有地表真实分类中的像元总数(N)乘以混淆矩阵对角线(Xkk)的和,再减去某一类地表真实像元总数与被误分成该类像元总数之积对所有类别求和的结果,再除以总像元数的平方减去某一类中地表真实像元总数与该类中被误分成该类像元总数之积对所有类别求和的结果所得到的。

这对于新手而言可能比较难理解。什么混淆矩阵?什么像元总数?
我们直接从算式入手:

[k = frac{p_0-p_e}{1-p_e} ]

(p_0)是每一类正确分类的样本数量之和除以总样本数,也就是总体分类精度
假设每一类的真实样本个数分别为(a_1,a_2,...,a_c)
而预测出来的每一类的样本个数分别为(b_1,b_2,...,b_c)
总样本个数为n
则有:(p_e=a_1×b_1+a_2×b_2+...+a_c×b_c / n×n)

1.1 简单例子

学生考试的作文成绩,由两个老师给出 好、中、差三档的打分,现在已知两位老师的打分结果,需要计算两位老师打分之间的相关性kappa系数:
在这里插入图片描述
从上面的公式中,可以知道我们其实只需要计算(p_0 ,p_e)即可:

Po = (10+35+15) / 87 = 0.689
a1 = 10+2+8 = 20; a2 = 5+35+5 = 45; a3 = 5+2+15 = 22;
b1 = 10+5+5 = 20; b2 = 2+35+2 = 39; b3 = 8+5+15 = 28;
Pe = (a1b1 + a2b2 + a3b3) / (8787) = 0.455
K = (Po-Pe) / (1-Pe) = 0.4293578

可以说提到kappa到处都是两个老师的例子,哈哈

2 指标解释

kappa计算结果为[-1,1],但通常kappa是落在 [0,1] 间

第一种分析准则--可分为五组来表示不同级别的一致性:

0.0~0.20极低的一致性(slight)

0.21~0.40一般的一致性(fair)

0.41~0.60 中等的一致性(moderate)

0.61~0.80 高度的一致性(substantial)

0.81~1几乎完全一致(almost perfect)


喜欢的话加个微信公众号支持一下吧~目前主要再整理针对机器学习算法岗位的面试可能遇到的知识点。

公众号回复【下载】有精选的免费机器学习学习资料。 公众号每天会更新一个机器学习、深度学习的小知识,都是面试官会问的知识点哦~

  • 【机器学习的基础数学(PDF)】
  • 【竞赛中的大数据处理流程(PDF)】
  • 【如何做大数据的基础特征工程(PDF)】
  • 【自然语言处理NLP的应用实践大合集(PDF)】
  • 【python入门级教材(400页PDF)】

公众号每天会更新一个机器学习、深度学习的小知识,都是面试官会问的知识点哦~

在这里插入图片描述

免责声明:文章转载自《【一致性检验指标】Kappa(cappa)系数》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇auth组件c++ Oracle OCCI 编程下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

Deep Learning基础--线性解码器、卷积、池化

本文主要是学习下Linear Decoder已经在大图片中经常采用的技术convolution和pooling,分别参考网页http://deeplearning.stanford.edu/wiki/index.php/UFLDL_Tutorial中对应的章节部分。   Linear Decoders:   以三层的稀疏编码神经网络而言,在sparse a...

使用Java语言开发机器学习框架和参数服务器

https://github.com/wudikua/ps 本项目是我自己动手实现的机器学习训练框架,代码简单,有很多不完善,但是也保留了最小可用功能 通过自己编写这个项目,可以帮助自己入门机器学习 准备 1. 学习梯度下降法训练LR模型原理,了解机器学习一般的套路 2. 学习神经网络的模型结构,正向传导和反向传导 3. 学习一些python写的神经网络,...

机器学习(3)——多变量线性回归

【一、多变量线性回归模型】 多变量线性回归是指输入为多维特征的情况。比如: 在上图中可看出房子的价格price由四个变量(size、number of bedrooms、number of floors 、age of home)决定。为了能够预測给定条件(四个变量)下的房子的价格(y),我们须要建立对应的线性回归模型。 如果有n个变量,则对应的多变量...

自监督学习(Self-Supervised Learning)多篇论文解读(上)

自监督学习(Self-Supervised Learning)多篇论文解读(上) 前言 Supervised deep learning由于需要大量标注信息,同时之前大量的研究已经解决了许多问题。所以近期大家的研究关注点逐渐转向了Unsupervised learning,许多顶会包括ICML, NeurIPS, CVPR, ICCV相继出现一些不错的...

谷歌发布"自动机器学习"技术 AI可自我创造

谷歌发布"自动机器学习"技术 AI可自我创造 据Inverse报道,今年5月份,谷歌宣布其人工智能(AI)研究取得重大进展,似乎帮助科幻小说中最耸人听闻的末日预言成为现实。谷歌推出名为“自动机器学习(AutoML)”的技术,在无需人类工程师的支持下,允许AI进行自我创造。 从表面上看,这种技术可能会让人觉得AI发展终于迎来“奇点时刻”,它正在失去控制。但...

Coursera 机器学习 第8章(下) Dimensionality Reduction 学习笔记

8 Dimensionality Reduction8.3 Motivation8.3.1 Motivation I: Data Compression第二种无监督问题:维数约简(Dimensionality Reduction)。通过维数约简可以实现数据压缩(Data Compression),数据压缩可以减少计算机内存使用,加快算法运算速度。什么是维数...