贝叶斯方法的m-估计

摘要:
在大多数情况下,这个比率是一个很好的概率估计。原因是贝叶斯公式中计算出的数量的所有其他概率项将乘以这个0值。因此,为了避免这个问题,最好的方法是等效地扩展样本数量,即在观测样本中添加m个等效样本。因此,要添加到该类别中的等效类别的数量是等效样本的数量m乘以先验估计p。为什么贝叶斯应用中使用的公式如下?

为什么要有m-估计?

当我们通过在全部事件的基础上观察某事件出现的比例来估计概率时,例如:P=nc/n.,其中nc为该类别中的样本数量,n为总样本数量。若n=5,当P=0.6时,则nc为3。多数情况下该比例是对概率的一个良好的估计。但当nc很小时估计会较差,例如:P=0.08,样本中同样有5个样例,那么对于nc最可能的取值只有0,。这会导致两个问题:

1、nc/n产生了一个有偏的过低估计概率。

2、当此概率估计为0时,将来的查询此概率项将会在贝叶斯分类器中占统治地位。原因是贝叶斯公式中计算得量其他所有概率项都将乘以此0值。

为了避免此问题,所以需要采用一种估计概率,即如下定义的m-估计:

贝叶斯方法的m-估计第1张

其中nc为该类别中的样本数量,n为总样本数量,p为将要确定的概率的先验估计,m为等效样本大小的常量。

为什么m-估计的公式是这样的?

首先,请思考问题出现的根本原因,问题出现的根本原因是样本数量过小。所以为了避免此问题,最好的方法是等效的扩大样本的数量,即在为观察样本添加m个等效的样本,所以要在该类别中增加的等效的类别的数量就是等效样本数m乘以先验估计p。

为什么在贝叶斯应用(如mahout)中使用的公式如下呢?

贝叶斯方法的m-估计第2张

其中nk为单词W出现的次数,n为所有单词出现的次数。

其实,这只是m的取值的关系,当等效样本数m为词汇表中的单词数时,自然取统一的先验概率的p的值就是1/|vocabulary|咯。

转自:http://www.xuebuyuan.com/1562982.html

免责声明:文章转载自《贝叶斯方法的m-估计》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇ELK&ElasticSearch5.1基础概念及配置文件详解【转】开源GIS解决方案之路下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

说说高斯过程回归

说说高斯过程回归作者介绍:新浪微博ID @妖僧老冯, 9月将赴南京大学(直博生),方向是机器学习与数据挖掘 编者:小便和作者打过几次交道,一直以为是他是已“修成正果”的某某博士,便“毕恭毕敬”地去邀请他写篇牛文。细聊之后才得知小伙子原来是90后,9月份才博士入学。这篇文章对GP进行了深度科普,数学公式是有一些的,但耐心读读,都不是问题的。高斯过程是机器学习...

朴素贝叶斯原理

1.朴素贝叶斯的使用条件 朴素贝叶斯方法假设条件概率分布是相互独立的,这个假设会使每个属性独立的对分类结果产生影响 因此,根据独立性有,$p(x_1,x_2,...,x_n|C) = p(x_1|C)p(x_2|C)...p(x_n|C),其中x_n是特征,C是分类的类别$ 2.贝叶斯公式 由于朴素贝叶斯假设属性之间相互独立,所以贝叶斯公式可以写成如下形式...

拓端数据tecdat|R语言贝叶斯线性回归和多元线性回归构建工资预测模型

原文链接:http://tecdat.cn/?p=21641  工资模型 在劳动经济学领域,收入和工资的研究为从性别歧视到高等教育等问题提供了见解。在本文中,我们将分析横断面工资数据,以期在实践中使用贝叶斯方法,如BIC和贝叶斯模型来构建工资的预测模型。 加载包 在本实验中,我们将使用dplyr包探索数据,并使用ggplot2包进行数据可视化。我们也可...

朴素贝叶斯常见面试题

0、思想: 对于给定的待分类项x,通过学习到的模型计算后验概率分布,即:在此项出现的条件下各个目标类别出现的概率,将后验概率最大的类作为x所属的类别。后验概率根据贝叶斯定理计算。 关键:为避免贝叶斯定理求解时面临的组合爆炸、样本稀疏问题,引入了条件独立性假设。用于分类的特征在类确定的条件下都是条件独立的。 1、朴素贝叶斯朴素在哪里? 简单来说:利用贝叶斯定...

机器学习 —— 概率图模型(贝叶斯网络)

  概率图模型(PGM)是一种对现实情况进行描述的模型。其核心是条件概率,本质上是利用先验知识,确立一个随机变量之间的关联约束关系,最终达成方便求取条件概率的目的。 1.从现象出发---这个世界都是随机变量   这个世界都是随机变量。   第一,世界是未知的,是有多种可能性的。   第二,世界上一切都是相互联系的。   第三,随机变量是一种映射,把观测到的...

机器学习之朴素贝叶斯及高斯判别分析

1判别模型与生成模型 上篇报告中提到的回归模型是判别模型,也就是根据特征值来求结果的概率。形式化表示为,在参数确定的情况下,求解条件概率。通俗的解释为在给定特征后预测结果出现的概率。 比如说要确定一只羊是山羊还是绵羊,用判别模型的方法是先从历史数据中学习到模型,然后通过提取这只羊的特征来预测出这只羊是山羊的概率,是绵羊的概率。换一种思路,我们可以根据山羊...