理解先验概率 后验概率 似然函数

摘要:
后验概率后验概率是指在得到“结果”的信息后重新修正的概率,是“执果寻因”问题中的"果"。事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小,是后验概率。后验概率是关于随机事件或者不确定性断言的条件概率,是在相关证据或者背景给定并纳入考虑之后的条件概率。后验概率分布就是未知量作为随机变量的概率分布,并且是在基于实验或者调查所获得的信息上的条件分布。参考如何理解似然函数?

理解一下这些基础知识

先验概率(prior probability)

是指根据以往经验和分析得到的概率,如全概率公式,它往往作为 "由因求果" 问题中的 "因" 出现的概率。

在贝叶斯统计中,先验概率分布,即关于某个变量X的概率分布,是在获得某些信息或者依据前,对X之不确定性所进行的猜测。这是对不确定性(而不是随机性)赋予一个量化的数值的表征,这个量化数值可以是一个参数,或者是一个潜在的变量。

先验概率仅仅依赖于主观上的经验估计,也就是事先根据已有的知识的推断。例如,X可以是投一枚硬币,正面朝上的概率,显然在我们未获得任何其他信息的条件下,我们会认为P(X)=0.5;再比如上面例子中的,P(G)=0.4

后验概率(Posterior probability)

后验概率是指在得到 “结果” 的信息后重新修正的概率,是 “执果寻因” 问题中的 "果"。
事情还没有发生,要求这件事情发生的可能性的大小,是先验概率。事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小,是后验概率。

后验概率是关于随机事件或者不确定性断言的条件概率,是在相关证据或者背景给定并纳入考虑之后的条件概率。后验概率分布就是未知量作为随机变量的概率分布,并且是在基于实验或者调查所获得的信息上的条件分布。“后验” 在这里意思是,考虑相关事件已经被检视并且能够得到一些信息。

后验概率是关于参数θ在给定的证据信息X下的概率,即P(θ|X)。若对比后验概率和似然函数,似然函数是在给定参数下的证据信息X的概率分布,即P(X|θ)

我们用P(θ)表示概率分布函数,用P(X|θ)表示观测值X的似然函数。后验概率定义为P(θ|X)=P(X|θ)P(θ) /P(X),注意这也是贝叶斯定理所揭示的内容。

举个例子:

比如,你刚去北京的时候,查了下北京历年来的天气情况,北京下雨的概率是多少,你就经验性的给了一个。这就是先验。
等你今天要出门的时候,你发现下雨了,于是你开始想,下雨前,有没有打雷尼?你开始猜测有多大的可能性打雷了,既然已经有了下雨的结果,对一些征兆发生的可能性做预测,这就是似然概率。
等下了班回去,你发现居然又打雷了,你开始想会不会下雨啊,于是根据观察数据,预测结果的概率,也就是后验。

似然函数likelihood (function)

区别:

先看似然函数的定义,它是给定联合样本值 extbf{x}下关于 (未知) 参数 heta 的函数:L( heta | extbf{x}) = f( extbf{x} | heta)

这里的小 extbf{x}是指联合样本随机变量 extbf{X}取到的值,即 extbf{X} = extbf{x};这里的 heta是指未知参数,它属于参数空间;

这里的f( extbf{x}| heta)是一个密度函数,特别地,它表示 (给定) heta下关于联合样本值 extbf{x}的联合密度函数。

所以从定义上,似然函数和密度函数是完全不同的两个数学对象:前者是关于 heta的函数,后者是关于 extbf{x}的函数。所以这里的等号= 理解为函数值形式的相等,而不是两个函数本身是同一函数 (根据函数相等的定义,函数相等当且仅当定义域相等并且对应关系相等)。

联系:

如果 extbf{X}是离散的随机向量,那么其概率密度函数 f( extbf{x} | heta)可改写为 f( extbf{x} | heta) = mathbb{P}_ heta( extbf{X} = extbf{x}),即代表了在参数 heta下随机向量 extbf{X}取到值 extbf{x}可能性;并且,如果我们发现

L( heta_1 | extbf{x} ) = mathbb{P}_{ heta_1}( extbf{X} = extbf{x}) > mathbb{P}_{ heta_2}( extbf{X} = extbf{x}) = L( heta_2 | extbf{x})

那么似然函数就反应出这样一个朴素推测:在参数 heta_1下随机向量 extbf{X}取到值 extbf{x}可能性大于 在参数 heta_2下随机向量 extbf{X}取到值 extbf{x}可能性。换句话说,我们更有理由相信 (相对于 heta_2来说) heta_1更有可能是真实值。这里的可能性由概率来刻画。

连续情况也差不多,如果 extbf{X}是连续的随机向量,那么其密度函数 f( extbf{x} | heta)本身(如果在 extbf{x}连续的话)在 extbf{x}处的概率为 0,为了方便考虑一维情况:给定一个充分小epsilon > 0,那么随机变量X取值在(x - epsilon, x + epsilon)区间内的概率即为

mathbb{P}_ heta(x - epsilon < X < x + epsilon) = int_{x - epsilon}^{x + epsilon} f(x | heta) dx approx 2 epsilon f(x | heta) = 2 epsilon L( heta | x)

并且两个未知参数的情况下做比就能约掉2epsilon,所以和离散情况下的理解一致,只是此时似然所表达的那种可能性概率f(x| heta) = 0无关。

综上,概率 (密度) 表达给定 heta下样本随机向量 extbf{X} = extbf{x}可能性,而似然表达了给定样本 extbf{X} = extbf{x}下参数 heta_1(相对于另外的参数 heta_2) 为真实值的可能性。我们总是对随机变量的取值谈概率,而在非贝叶斯统计的角度下,参数是一个实数而非随机变量,所以我们一般不谈一个参数的概率

最后我们再回到L( heta | extbf{x}) = f( extbf{x} | heta)这个表达。首先我们严格记号,竖线|表示条件概率或者条件分布,分号;表示把参数隔开。所以这个式子的严格书写方式是L( heta | extbf{x}) = f( extbf{x} ; heta)因为 heta在右端只当作参数理解。


L(θ|x)=f(x|θ)
这个等式表示的是对于事件发生的两种角度的看法。其实等式两边都是表示的这个事件发生的概率或者说可能性。
再给定一个样本 x 后,我们去想这个样本出现的可能性到底是多大。统计学的观点始终是认为样本的出现是基于一个分布的。那么我们去假设这个分布为 f,里面有参数 theta。对于不同的 theta,样本的分布不一样。
f(x|θ) 表示的就是在给定参数 theta 的情况下,x 出现的可能性多大。L(θ|x) 表示的是在给定样本 x 的时候,哪个参数 theta 使得 x 出现的可能性多大。
所以其实这个等式要表示的核心意思都是在给一个 theta 和一个样本 x 的时候,整个事件发生的可能性多大。

免责声明:文章转载自《理解先验概率 后验概率 似然函数》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇使用nginx搭建rtmp服务器Linux下TFTP服务的安装、配置和操作下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

统计学习方法 李航---第9章 EM算法及其推广

第9章 EM算法及其推广 EM算法是一种迭代算法,用于含有隐变量(hidden variable)的概率模型参数的极大似然估计,或极大后验概率估计。EM算法的每次迭代由两步组成:E步,求期望(expectation);M步,求极大( maximization ),所以这一算法称为期望极大算法(expectation maximizationalgorith...

极大似然估计

极大似然估计,只是一种概率论在统计学的应用,它是参数估计的方法之一。 直接说,就是在给定样本的输出结果时,我们来估计参数。 它是建立在极大似然原理的基础上的一个统计方法,极大似然原理的直观想法是:一个随机试验如有若干个可能的结果A,B,C,…。若在仅仅作一次试验中,结果A出现,则一般认为试验条件对A出现有利,也即A出现的概率很大。一般地,事件A发生的概率与...

理解 LDA 主题模型

前言 gamma函数 0 整体把握LDA 1 gamma函数 beta分布 1 beta分布 2 Beta-Binomial 共轭 3 共轭先验分布 4 从beta分布推广到Dirichlet 分布 Dirichlet 分布 1 Dirichlet 分布 2 Dirichlet-Multinomial 共轭 主题模型LDA 1 各个基础模型...

最大似然估计

参考 从最大似然到 EM 算法浅解最大似然估计学习总结EM 算法及其推广学习笔记 之前已经总结了似然的概念,那么顺其自然的理解就是,求得似然最大值的参数即为想要的参数,也就是参数估计,使用的方法为最大似然估计。 先提出几个问题: 1.最大似然估计求参数的一般流程是怎样的? 2.什么样的场景适合/不适合最大似然估计?为什么 求解步骤: 基于对似然函数 L(θ...