贝叶斯方法的m-估计,贝叶斯分析方法

贝叶斯方法的m-估计

摘要：

在大多数情况下，这个比率是一个很好的概率估计。原因是贝叶斯公式中计算出的数量的所有其他概率项将乘以这个0值。因此，为了避免这个问题，最好的方法是等效地扩展样本数量，即在观测样本中添加m个等效样本。因此，要添加到该类别中的等效类别的数量是等效样本的数量m乘以先验估计p。为什么贝叶斯应用中使用的公式如下？

为什么要有m-估计？

当我们通过在全部事件的基础上观察某事件出现的比例来估计概率时，例如：P=nc/n.，其中nc为该类别中的样本数量，n为总样本数量。若n=5，当P=0.6时，则nc为3。多数情况下该比例是对概率的一个良好的估计。但当nc很小时估计会较差，例如：P=0.08，样本中同样有5个样例，那么对于nc最可能的取值只有0,。这会导致两个问题：

1、nc/n产生了一个有偏的过低估计概率。

2、当此概率估计为0时，将来的查询此概率项将会在贝叶斯分类器中占统治地位。原因是贝叶斯公式中计算得量其他所有概率项都将乘以此0值。

为了避免此问题，所以需要采用一种估计概率，即如下定义的m-估计：

贝叶斯方法的m-估计第1张

其中nc为该类别中的样本数量，n为总样本数量，p为将要确定的概率的先验估计，m为等效样本大小的常量。

为什么m-估计的公式是这样的？

首先，请思考问题出现的根本原因，问题出现的根本原因是样本数量过小。所以为了避免此问题，最好的方法是等效的扩大样本的数量，即在为观察样本添加m个等效的样本，所以要在该类别中增加的等效的类别的数量就是等效样本数m乘以先验估计p。

为什么在贝叶斯应用（如mahout）中使用的公式如下呢？

贝叶斯方法的m-估计第2张

其中nk为单词W出现的次数，n为所有单词出现的次数。

其实，这只是m的取值的关系，当等效样本数m为词汇表中的单词数时，自然取统一的先验概率的p的值就是1/|vocabulary|咯。

转自：http://www.xuebuyuan.com/1562982.html

免责声明：文章转载自《贝叶斯方法的m-估计》仅用于学习参考。如对内容有疑问，请及时联系本站处理。

贝叶斯方法的m-估计

相关文章

说说高斯过程回归

朴素贝叶斯原理

拓端数据tecdat|R语言贝叶斯线性回归和多元线性回归构建工资预测模型

朴素贝叶斯常见面试题

机器学习 —— 概率图模型（贝叶斯网络）

机器学习之朴素贝叶斯及高斯判别分析

最新文章

随机推荐

思享工具箱导航

JSON工具

格式化转换

加解密编码

文本数字

网络

站长

计算

其他

对照列表