准确率(Precision)、召回率(Recall)以及综合评价指标(F1-Measure)

摘要:
在信息检索和自然语言处理中经常会使用这些参数,下面简单介绍如下:准确率与召回率我们先看下面这张图来加深对概念的理解,然后再具体分析。如果是做实验研究,可以绘制Precision-Recall曲线来帮助分析。F-Measure是Precision和Recall加权调和平均:当参数a=1时,就是最常见的F1了:很容易理解,F1综合了P和R的结果,当F1较高时则比较说明实验方法比较理想。

在信息检索和自然语言处理中经常会使用这些参数,下面简单介绍如下:

准确率与召回率(Precision & Recall)

我们先看下面这张图来加深对概念的理解,然后再具体分析。其中,用P代表Precision,R代表Recall

准确率(Precision)、召回率(Recall)以及综合评价指标(F1-Measure)第1张

一般来说,Precision 就是检索出来的条目中(比如:文档、网页等)有多少是准确的,Recall就是所有准确的条目有多少被检索出来了。

下面这张表介绍了True Positive,False Negative等常见的概念,P和R也往往和它们联系起来。

RelevantNonRelevant
Retrievedtrue positives (tp)false positives(fp)
Not Retrievedfalse negatives(fn)true negatives (tn)

那么,

P=frac{tp} {tp+fp} hfill (1)

 R=frac{tp} {tp+fn} hfill (2)

我们当然希望检索的结果P越高越好,R也越高越好,但事实上这两者在某些情况下是矛盾。比如极端情况下,我们只搜出了一个结果,且是准确的,那么P就是100%,但是R就很低(tp==1,fp==0,fn很大,tn==0);而如果我们把所有结果都返回(全部都检索到了,不过检索到不相关的也有很多,即fp很大,fn==0),那么必然R是100%,但是P很低。

因此在不同的场合中需要自己判断希望P比较高还是R比较高。如果是做实验研究,可以绘制Precision-Recall曲线来帮助分析。

F1-Measure

前面已经讲了,P和R指标有的时候是矛盾的,那么有没有办法综合考虑他们呢?我想方法肯定是有很多的,最常见的方法应该就是F-Measure了,有些地方也叫做F-Score,其实都是一样的。

F-Measure是Precision和Recall加权调和平均:

 F = frac{(a^2+1)P*R} {a^2(P+R)} hfill (3)

当参数a=1时,就是最常见的F1了:

 F1 = frac{2PR} {P+R} hfill (4)

很容易理解,F1综合了P和R的结果,当F1较高时则比较说明实验方法比较理想。

免责声明:文章转载自《准确率(Precision)、召回率(Recall)以及综合评价指标(F1-Measure)》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇C#编写windows服务,多服务为什么只启动一个(ServiceBase.Run)转:: 刺鸟:用python来开发webgame服务端(5)下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

位姿检索PoseRecognition:LSH算法.p稳定哈希

位姿检索使用了LSH方法,而不使用PNP方法,是有一定的来由的。主要的工作会转移到特征提取和检索的算法上面来,有得必有失。因此,放弃了解析的方法之后,又放弃了优化的方法,最后陷入了检索的汪洋大海。 0:转自wiki:http://en.wikipedia.org/wiki/Locality_sensitive_hashing 以下参考资料仅供参考:LS...

机器学习算法中的评价指标(准确率、召回率、F值、ROC、AUC等)

参考链接:https://www.cnblogs.com/Zhi-Z/p/8728168.html 具体更详细的可以查阅周志华的西瓜书第二章,写的非常详细~ 一、机器学习性能评估指标 1.准确率(Accurary) 准确率是我们最常见的评价指标,而且很容易理解,就是被分对的样本数除以所有的样本数,通常来说,正确率越高,分类器越好。 准确率确实是一个很...

衡量机器学习模型的三大指标:准确率、精度和召回率。

       倾向于使用准确率,是因为熟悉它的定义,而不是因为它是评估模型的最佳工具!  精度(查准率)和召回率(查全率)等指标对衡量机器学习的模型性能是非常基本的,特别是在不平衡分布数据集的案例中,在周志华教授的「西瓜书」中就特别详细地介绍了这些概念。   什么是分布不平衡的数据集?   倘若某人声称创建了一个能够识别登上飞机的恐怖分子的模型,并且准确...

回环检测

1.回环检测的必要性因为累积误差,最后会使地图出现漂移。比如之前位姿图优化,只给后端提供相邻帧之间的约束,x1-x2,x2-x3,x1的误差就会传到x3.而回环检测能够给出时隔更久远的约束,比如x1-x100,它做的事就是检测相机经过了同一个地方,把带有累积误差的边拉回到了正确的位置。回环检测提供了当前数据与历史数据之间的关联,一是可以保证轨迹和地图长时间...

精确率、召回率、F1 值、ROC、AUC 各自的优缺点是什么?

ROC(receiver operating characteristic curve)是曲线。也就是下图中的曲线。同时我们也看里面也上了AUC也就是是面积。一般来说,如果ROC是光滑的,那么基本可以判断没有太大的overfitting(比如图中0.2到0.4可能就有问题,但是样本太少了),这个时候调模型可以只看AUC,面积越大一般认为模型越好。 再说...

深入理解javascript原型和闭包(5)——instanceof

对于值类型来说,可以用typeof判断,但typeof判断引用类型的时候返回值只有object/function,并不知道到底是哪一个。这个时候就要用到instance。例如 上图中,f1是被Foo函数创建得,但是“f1 instanceof Object”为什么是true呢? 至于为什么过会儿再说,先说下instanceof判断的规则。根据以上代码看下...