朴素贝叶斯原理

摘要:
1.朴素贝叶斯的使用条件朴素贝叶斯方法假设条件概率分布彼此独立,这将使每个属性独立,并对分类结果产生影响。因此,根据独立性,$p(x_1,x_2,…,x_n|C)=p(x_1|C)p(x_2|C)…p_
1.朴素贝叶斯的使用条件

朴素贝叶斯方法假设条件概率分布是相互独立的,这个假设会使每个属性独立的对分类结果产生影响

因此,根据独立性有,$p(x_1,x_2,...,x_n|C) = p(x_1|C)p(x_2|C)...p(x_n|C),其中x_n是特征,C是分类的类别$

2.贝叶斯公式

由于朴素贝叶斯假设属性之间相互独立,所以贝叶斯公式可以写成如下形式

$p(C|mathbf x) = {p(C)  p(x_1,x_2,...,x_n | C)over p(x_1,x_2,...,x_n)} = {p(C) over p(x_1,x_2,...,x_n)} p(x_1 | C) p(x_2 | C)  ldots p(x_n | C)$

 3.贝叶斯分类器

1)训练数据集的n个特征为$x = (x_1,x_2,ldots,x_n)$

2)假设C代表分类的类别

分别计算概率$p(x_1 | C), p(x_2 | C),  ldots ,p(x_n | C)$

计算$p(C)$

由于$p(x_1,x_2,...,x_n)$对于所有的C类来说都是一样的,所以可以把这一项看做常数,因此

$p(C|mathbf x) propto p(C) p(x_1 | C) p(x_2 | C)  ldots p(x_n | C)$

其中 $propto$表示成比例关系,如y = kx可以写成$y propto x$

3)故要想使$p(C|mathbf x)$最大,即使$ p(C) p(x_1 | C) p(x_2 | C)  ldots p(x_n | C)$最大

$hat C = argmax p(C) p(x_1 | C) p(x_2 | C)  ldots p(x_n | C) $

4.例子

判断$mathbf x = ${Outlook = Sunny,Temperature = Cool,Humidty = High,Wind = Strong}能不能打网球

Outlook{Sunny、Overcast、Rain}

Temperature{Hot、Mild、Cool}

Humidty{High、Normal}

Wind{Weak、Strong}

朴素贝叶斯原理第1张

1)$x = (x_1,x_2,x_3,x_4)$,其中$x_1$是Outlook = Sunny、$x_2$是Temperature = Cool、$x_3$是Humidty = High、$x_4$是Wind = Strong

2)为了更直观的计算概率$p(x_1 | C), p(x_2 | C),p(x_3 | C) ,p(x_4 | C)$,将上表整理成如下形式,其中C是分类的类别Play = yes 或 Play = No

 朴素贝叶斯原理第2张

$p(x_1 | Play = yes) = {2over 9}$    $p(x_1 | Play = No) = {3over 5}$

$p(x_2 | Play = yes) = {3over 9}$    $p(x_2 | Play = No) = {1over 5}$

$p(x_3 | Play = yes) = {3over 9}$    $p(x_3 | Play = No) = {4over 5}$

$p(x_4 | Play = yes) = {3over 9}$    $p(x_4 | Play = No) = {3over 5}$

$p(Play = yes) = {9over 14}$      $p(Play = yes) = {5over 14}$

3) $p(Play = yes) p(x_1 | Play = yes)p(x_2 | Play = yes)p(x_3 | Play = yes)p(x_4 | Play = yes) = 0.005$

$p(Play = No) p(x_1 | Play = No)p(x_2 | Play = No)p(x_3 | Play = No)p(x_4 | Play = No) = 0.02$

故$mathbf x = ${Outlook = Sunny,Temperature = Cool,Humidty = High,Wind = Strong}不能打网球

免责声明:文章转载自《朴素贝叶斯原理》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇访问localhost的phpmyadmin出现访问被拒绝ASP.NET 部署IIS后如何访问共享目录文件下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

机器学习之朴素贝叶斯及高斯判别分析

1判别模型与生成模型 上篇报告中提到的回归模型是判别模型,也就是根据特征值来求结果的概率。形式化表示为,在参数确定的情况下,求解条件概率。通俗的解释为在给定特征后预测结果出现的概率。 比如说要确定一只羊是山羊还是绵羊,用判别模型的方法是先从历史数据中学习到模型,然后通过提取这只羊的特征来预测出这只羊是山羊的概率,是绵羊的概率。换一种思路,我们可以根据山羊...

机器学习基础——带你实战朴素贝叶斯模型文本分类

本文始发于个人公众号:TechFlow 上一篇文章当中我们介绍了朴素贝叶斯模型的基本原理。 朴素贝叶斯的核心本质是假设样本当中的变量服从某个分布,从而利用条件概率计算出样本属于某个类别的概率。一般来说一个样本往往会含有许多特征,这些特征之间很有可能是有相关性的。为了简化模型,朴素贝叶斯模型假设这些变量是独立的。这样我们就可以很简单地计算出样本的概率。 想要...

贝叶斯网络

   贝叶斯网络是一种概率网络,它是基于概率推理的图形化网络,而贝叶斯公式则是这个概率网络的基础。贝叶斯网络是基于概率推理的数学模型,所谓概率推理就是通过一些变量的信息来获取其他的概率信息的过程,基于概率推理的贝叶斯网络(Bayesian network)是为了解决不定性和不完整性问题而提出的,它对于解决复杂设备不确定性和关联性引起的故障有很的优势,在多个...

机器学习分类算法之朴素贝叶斯

一、概念 朴素贝叶斯模型(Naive Bayesian Model,NBM)是以条件概率为基础的分类器,是一种监督算法,常被用于文本分类和垃圾邮件过滤。贝叶斯理论解决的是逆向概率问题,即通过已经发生的已知的概率来推测未发生的事将会发生的概率。  二、计算 朴素贝叶斯各个事件发生的概率是彼此独立的,即m事件概率P(m)和n事件概率P(n)同时发生的概率为P(...

概率图模型之:贝叶斯网络

1、贝叶斯定理 P(A∣B)=P(A)P(B∣A)P(B) P(A|B)是已知B发生后A的条件概率,也由于得自B的取值而被称作A的后验概率。P(B|A)是已知A发生后B的条件概率,也由于得自A的取值而被称作B的后验概率。P(A)是A的先验概率或边缘概率。之所以称为”先验”是因为它不考虑任何B方面的因素。P(B)是B的先验概率或边缘概率。贝叶斯定理可表述为:...

拓端数据tecdat|R语言贝叶斯线性回归和多元线性回归构建工资预测模型

原文链接:http://tecdat.cn/?p=21641  工资模型 在劳动经济学领域,收入和工资的研究为从性别歧视到高等教育等问题提供了见解。在本文中,我们将分析横断面工资数据,以期在实践中使用贝叶斯方法,如BIC和贝叶斯模型来构建工资的预测模型。 加载包 在本实验中,我们将使用dplyr包探索数据,并使用ggplot2包进行数据可视化。我们也可...