机器学习 —— 概率图模型(贝叶斯网络)

摘要:
概率图模型是描述现实的模型。典型的概率图-贝叶斯网络如下:2.1相关性对于给定的图,每个节点代表一个随机变量,节点之间用箭头连接。通过观察实验,我们可以得到一系列条件概率。通过这个条件概率和贝叶斯条件概率链规则,我们可以得到我们想要的随机变量组的概率。

  概率图模型(PGM)是一种对现实情况进行描述的模型。其核心是条件概率,本质上是利用先验知识,确立一个随机变量之间的关联约束关系,最终达成方便求取条件概率的目的。

1.从现象出发---这个世界都是随机变量

  这个世界都是随机变量。

  第一,世界是未知的,是有多种可能性的。

  第二,世界上一切都是相互联系的。

  第三,随机变量是一种映射,把观测到的样本映射成数值的过程叫做随机变量。

  上述三条原则给了我们以量化描述世界的手段,我们可以借此把一个抽象的问题变成一个数学问题。并且借助数学手段,发现问题,解决问题。世界上一切都是未知的,都是随机变量。明天会有多少婴儿降生武汉是随机变量,明天出生婴儿的基因也是随机变量,这些孩子智商高低是随机变量,高考分数是随机变量,月薪几何是随机变量。但是这些随机变量之间完全无关么?男孩,智商高,高考低分,月薪高的概率又有多少?显然,随机变量每增多一个,样本空间就会以指数形式爆表上涨。我们要如何快速的计算一组给定随机变量观察值的概率呢?概率图给出了答案。

  

2.概率图---自带智能的模型

  其实在看CRF的时候我就常常在想,基于CRF的词性分割使用了词相邻的信息;基于边缘检测的图像处理使用了像素的相邻信息;相邻信息够么?仅仅考虑相邻像素所带来的信息足够将一个观察(句子或图像)恢复出其本意么?没错,最丰富的关系一定处于相邻信息中,比如图像的边缘对分割的共线绝对不可磨灭,HMM词性分割也效果不错.......但是如果把不相邻的信息引入判断会怎样?在我苦思冥想如何引入不相邻信息的时候Deep Learning 和 CNN凭空出现,不得不承认设计这套东西的人极度聪明,利用下采样建立较远像素的联系,利用卷积将之前产生的效果累加到目前时刻上(卷积的本质是堆砌+变质)。这样就把不相邻的信息给使用上了。但是这样是不是唯一的方法呢?显然不是,还有一种不那么自动,却 not intractable方法,叫做PGM。

  还是从快速计算条件概率来谈PGM。首先是representation,概率图的表达是一张。。。图。。。图当然会有节点,会有边。节点则为随机变量(一切都是随机变量),边则为依赖关系(现在只谈有向图)。一张典型的概率图——贝叶斯网络如下所示:

机器学习 —— 概率图模型(贝叶斯网络)第1张

2.1 相关性

  对于一副给定的图,每个节点都代表一个随机变量,节点与节点之间通过箭头相连。似乎这在节点与节点之间形成了“流”。那么节点的流之间是否会和随机变量的相关性产生联系?答案是肯定的。考虑几种典型的流:

机器学习 —— 概率图模型(贝叶斯网络)第2张

  显然直观的看来,如果x与y直接相连,那么x,y必然是相关的,给出了x的信息则会影响我们对y的判断。当x与y间接相连时,若x,y呈链状关系,那么影响肯定会传递下去,如果x,y不呈链状关系,有共同原因时,则相关;共同发生作用时,则不相关。

  这里称             x->W<-y       为 V 结构

  一般情况下,相关性的传递是无法通过V结构的。

  但是如果是条件概率的情况下,相关性的传递则表现出完全不同的性质。W 是观测值,如果节点中有随机变量被观测了,那么相关性的连接则会全部取反。也就是说,原本通过W相关的两个变量,在W被观测的情况下,相关性被分离了。也叫做d-separated.记作:d-sepG(X, Y | Z)

  上图中,当且仅当,G被观测且没有其他变化的情况下,S会与D相关。

2.2 因式分解

  由上述分析可知,当给定某些观测时,原本相关的随机变量可以被分离

  由此我们得出以下定理:

机器学习 —— 概率图模型(贝叶斯网络)第3张

  考虑P(D,I,G,L,S)应该怎么计算?如果没有任何先验信息,那么应该是按照条件概率公式:

  P(D,I,G,L,S) = P(D)*P(I|D)*P(G|I,D)*P(L|I,D,G)*P(S|D,I,G,L);

  上式的最后一项,光是对于P(S|D,I,G,L)就需要考虑DIGL所有的可能,并且每增加一个随机变量,计算的复杂程度就会上升一个档次。使用贝叶斯链式法则,那么上式就可以简化成以下形式:

 机器学习 —— 概率图模型(贝叶斯网络)第4张

  从概率图的角度上来讲,其表达了在给定父节点的情况下,任意一个节点都是与其非子节点,都是d分离的。

  从概率的角度上来讲,任意一个随机变量,在给定父随机变量的情况下,和其非子随机变量,都是d分离的。

  

  

  或者再通俗一点,一个聪明人,在一场很难的考试里拿了高分,却得到了一封很烂的推荐信,同时他SAT考试却是高分的概率是多少?

  我们再隐藏一些细节,一个人推荐信很烂,他SAT高分的概率是多少?或者,一个人SAT低分,却手握牛推的概率是多少?

  如果不考虑随机变量之间的依赖关系,上述内容是很难计算的。但是如果有一个构建好的概率图,上面的问题则可以转化为条件概率问题。

  通过观察实验,我们可以得到一系列的条件概率,通过此条件概率,以及贝叶斯条件概率链式法则,则可求的我们想要的那一组随机变量的概率。

机器学习 —— 概率图模型(贝叶斯网络)第5张

机器学习 —— 概率图模型(贝叶斯网络)第6张

  OK,玩具例子结束了,接下来我们来一点真的。如何通过某人血型(A B AB O)及其父母血型推测其基因型(AAAO AB BB BO ....),首先,我们可以建立一张概率图,所有的血型B,基因型G,都是随机变量(节点)。

机器学习 —— 概率图模型(贝叶斯网络)第7张

  

免责声明:文章转载自《机器学习 —— 概率图模型(贝叶斯网络)》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇重新初始化RAC的OCR盘和Votedisk盘,修复RAC系统shell中各种括号的作用详解()、(())、[]、[[]]、{}下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

拓端数据tecdat|R语言贝叶斯线性回归和多元线性回归构建工资预测模型

原文链接:http://tecdat.cn/?p=21641  工资模型 在劳动经济学领域,收入和工资的研究为从性别歧视到高等教育等问题提供了见解。在本文中,我们将分析横断面工资数据,以期在实践中使用贝叶斯方法,如BIC和贝叶斯模型来构建工资的预测模型。 加载包 在本实验中,我们将使用dplyr包探索数据,并使用ggplot2包进行数据可视化。我们也可...

Hyperledger Fabric1.4的多机部署

之前的文章深入解析Hyperledger Fabric启动的全过程主要讲解了Fabric的网络搭建,以及启动的整体流程,但是都是通过单机完成的。而区块链本身就是去中心化的,所以最终还是要完成Fabric网络的多机部署。在本文中,将会详细说明Fabric如何完成多机部署。 1 搭建环境 本文使用的是Fabric 1.4版本,搭建solo模式的4+1的架构:1...

基于P2P的匿名技术研究

李超 北京图形研究所 摘要:本文针对匿名通信中两种基本技术:Mix和洋葱路由进行了论述,并分析了P2P网络对于Mix网络和传统的洋葱路由的改进和缺陷,论述了基于P2P的匿名通信在提高通信性能和抗攻击能力上的实现技术。 关键词:P2P 洋葱路由 网络 匿名 1、概述  传统意义下的网络安全包括以下四个要素:秘密性(Confidentiality)、完整性(I...

DCOM

DCOM   求助编辑百科名片   DCOM DCOM(分布式组件对象模型,分布式组件对象模式)是一系列微软的概念和程序接口,利用这个接口,客户端程序对象能够请求来自网络中另一台计算机上的服务器程序对象。DCOM基于组件对象模型(COM),COM提供了一套允许同一台计算机上的客户端和服务器之间进行通信的接口(运行在Windows95或者其后的版本...

取快递的数学问题:手机尾号的重复概率

学校门口,四位手机尾号取快递。问:设有 (n) 个包裹,则存在两个包裹号码(收件人手机尾号,假设均匀分布)相同的概率 (P(n)) 是多少? 答曰:手机尾号一共有 (10^4=10000) 个,所以 ( P(n)=frac{A_{10000}^n}{(10000)^n} ), 其中 (A_n^r) 为排列数。 求出表达式非常简单,然而计算具体值时却遇到了麻...

最大似然估计

参考 从最大似然到 EM 算法浅解最大似然估计学习总结EM 算法及其推广学习笔记 之前已经总结了似然的概念,那么顺其自然的理解就是,求得似然最大值的参数即为想要的参数,也就是参数估计,使用的方法为最大似然估计。 先提出几个问题: 1.最大似然估计求参数的一般流程是怎样的? 2.什么样的场景适合/不适合最大似然估计?为什么 求解步骤: 基于对似然函数 L(θ...