概率统计13——二项分布与多项分布

摘要:
从二项分布的质量函数P可以看出,概率分布只与测试次数N和成功概率P有关。P越接近0.5,二项分布就越对称。如果二项分布的典型情况是掷硬币,那么多项式分布就是掷骰子。在6点重复投掷N次和发生x次的概率为:这类似于二项分布的质量函数。

原文 | https://mp.weixin.qq.com/s/bOchsmHTINKKlyabCQKMSg

相关阅读

最大似然估计(概率10)

寻找“最好”(3)函数和泛函的拉格朗日乘数法

伯努利分布

  如果随机试验仅有两个可能的结果,那么这两个结果可以用0和1表示,此时随机变量X将是一个0/1的变量,其分布是单个二值随机变量的分布,称为伯努利分布。注意伯努利分布关注的是结果只有0和1,而不管观测条件是什么。

性质

  设p是随机变量等于1的概率,伯努利分布有一些特殊的性质:

概率统计13——二项分布与多项分布第1张

  将上面的两个式子合并:

概率统计13——二项分布与多项分布第2张

  伯努利变量是离散型,并且是一个0/1变量,它的数学期望是:

概率统计13——二项分布与多项分布第3张

  方差是:

概率统计13——二项分布与多项分布第4张

极大似然

  最大似然估计(概率10)

  对于伯努利分布的质量函数来说,p是唯一的参数。如果给定N个独立同分布的样本 {x(1), x(2), ……, x(N)},x(t)是投硬币的结果,是随机变量,x(t)ϵ{0, 1},可以通过极大似然估计,根据样本推测出p的取值:

概率统计13——二项分布与多项分布第5张

  取对数似然函数:

概率统计13——二项分布与多项分布第6张

概率统计13——二项分布与多项分布第7张

  这是个符合直觉的结果,即使没学过概率和极大似然也能得出这个结论。

二项分布

  假设某个试验是伯努利试验,成功概率用p表示,那么失败的概率为1-p。现在进行了N次这样的试验,成功了x次,失败了N-x次,发生这种情况的概率是多少?

质量函数

  对于每次实验来说,成功的概率都是p,失败的概率是1-p。假设已经完成了N次试验,并且前x次都成功了,后N-x次都失败了:

概率统计13——二项分布与多项分布第8张

  x次成功的情况当然不止一种,比如成功和失败交叉在一起:

概率统计13——二项分布与多项分布第9张

  这种成功和失败的排列顺序共有概率统计13——二项分布与多项分布第10张种不同的情况,因此对于任意N次伯努利试验,成功了x次的概率是:

概率统计13——二项分布与多项分布第11张

  概率统计13——二项分布与多项分布第12张的另一种记法是 概率统计13——二项分布与多项分布第13张

概率统计13——二项分布与多项分布第14张

  P(x)就是二项分布的质量函数,是N次伯努利试验中取得x次成功的概率。

性质

  二项分布的均值和方差分别为Np和Np(1-p)。

  从二项分布的质量函数P(x)可知,概率分布只与试验次数N和成功概率p有关,p越接近0.5,二项分布将越对称。保持二项分布试验的次数N不变,随着成功概率p逐渐接近0.5,二项分布逐渐对称,且近似于均值为Np、方差为Np(1-p)的正态分布:

概率统计13——二项分布与多项分布第15张

多项分布

  多项分布是二项分布的扩展,其中随机试验的结果不是两种状态,而是K种互斥的离散状态,每种状态出现的概率为pi,p1 + p1 + … + pK = 1,在这个前提下共进行了N次试验,用x1~xK表示每种状态出现次数,x1 + x2 + …+ xK = N,称X=(x1, x2, …, xK)服从多项分布,记作X~PN(N:p1, p2,…,pn)。

质量函数

  如果说二项分布的典型案例是扔硬币,那么多项分布就是扔骰子。骰子有6个不同的点数,扔一次骰子,每个点数出现的概率(对应p1~p6)都是1/6。重复扔N次,6点出现x次的概率是:  

概率统计13——二项分布与多项分布第16张

  这和二项分布的质量函数类似。现在将问题扩展一下,扔N次骰子,1~6出现次数分别是x1~x6时的概率是多少?

  仍然和二项式类似,假设前x1次都是1点,之后的x2次都是2点……最后x6次都是6点:

概率统计13——二项分布与多项分布第17张

  1~6出现次数分别是x1~x6的情况不止一种,1点出现x1次的情况有概率统计13——二项分布与多项分布第18张种;在1点出现x1次的前提下,2点出现x2次的情况有概率统计13——二项分布与多项分布第19张种;在1点出现x1次且2点出现x2次的前提下,3点出现x3的情况有概率统计13——二项分布与多项分布第20张种……扔N次骰子,1~6出现次数分别是x1~x6时的概率是:

概率统计13——二项分布与多项分布第21张

  根据①:

概率统计13——二项分布与多项分布第22张

  最终,扔骰子的概率质量函数是:

概率统计13——二项分布与多项分布第23张

  把这个结论推广到多项分布:某随机实验如果有K种可能的结果C1~CK,它们出现的概率是p1~pK。在N随机试验的结果中,分别将C1~CK的出现次数记为随机变量X1~XK,那么C1出现x1次、C2出现x2次……CK出现xK次这种事件发生的概率是:

概率统计13——二项分布与多项分布第24张

  其中x1 + x2 + …+ xK = N,p1 + p2 + …+ pK = 1。

极大似然

  多项式的极大似然是指在随机变量X1=x1, X2=x2, ……, XK=xK时,最可能的p1~pK

概率统计13——二项分布与多项分布第25张

  对数极大似然:

概率统计13——二项分布与多项分布第26张

  现在问题变成了求约束条件下的极值:

概率统计13——二项分布与多项分布第27张

  根据拉格朗日乘子法:

  寻找“最好”(3)函数和泛函的拉格朗日乘数法

概率统计13——二项分布与多项分布第28张

  根据约束条件:

概率统计13——二项分布与多项分布第29张

  这也是个符合直觉的结论。面对有N个样本的K分类数据集,当pi = xi/N 时,Ci类最可能出现xi次。为了这个结论我们却大费周章,也许又有人因此而嘲笑概率简单了……


  出处:微信公众号 "我是8位的"

  本文以学习、研究和分享为主,如需转载,请联系本人,标明作者和出处,非商业用途! 

  扫描二维码关注作者公众号“我是8位的”

概率统计13——二项分布与多项分布第30张

免责声明:文章转载自《概率统计13——二项分布与多项分布》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇uiautomatorviewer详解Mac Eclipse上Android SDK manager闪退的问题!!下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

二项式分布

二项式分布 一个试验只有成功和失败两种可能性,这样的试验是伯努利试验。n个独立的伯努利试验中成功的次数的离散概率分布就是二项式分布。N次试验中正好得到k次成功的概率:$$Binomleft( k|N,p ight) =(^{N}_{k})p^{k}left( 1-p ight) ^{N-k}$$其中$(^{N}_{k})=dfrac {N!}{k!left...

《概率统计》11.基于马尔科夫链的近似采样

楔子 从这一篇开始,我们主要来介绍基于马尔科夫链的近似采样过程。具体如何采样,以及整个采样过程中的思维过程,我们随着这篇的内容讲解而逐步展开 马尔科夫链的稳态与采样的关系 马尔科夫链的平稳分布是一个意义非凡的重要特性,我们换个角度说明一下大家就能明白它的重要意义:也就是说无论我们的起始状态是位于状态 1、状态 2 还是状态 3,在状态转移矩阵 P 的作用下...

概率论中常见分布总结以及python的scipy库使用:两点分布、二项分布、几何分布、泊松分布、均匀分布、指数分布、正态分布

原文作者:禅在心中 出处:http://www.cnblogs.com/pinking/    概率分布有两种类型:离散(discrete)概率分布和连续(continuous)概率分布。 离散概率分布也称为概率质量函数(probability mass function)。离散概率分布的例子有伯努利分布(Bernoulli distribution)、...

SIGAI深度学习第六集 受限玻尔兹曼机

讲授玻尔兹曼分布、玻尔兹曼机的网络结构、实际应用、训练算法、深度玻尔兹曼机等。受限玻尔兹曼机(RBM)是一种概率型的神经网络。和其他神经网络的区别:神经网络的输出是确定的,而RBM的神经元的输出值是不确定的,以某种概率取到某一个值、以另一种概率取到另一个值,神经元的输出值。各个神经元的输入值服从某种概率分布,所有神经元的输出值服从玻尔兹曼分布。 大纲: 玻...

概率图模型(PGM):贝叶斯网(Bayesian network)初探

1. 从贝叶斯方法(思想)说起 - 我对世界的看法随世界变化而随时变化 用一句话概括贝叶斯方法创始人Thomas Bayes的观点就是:任何时候,我对世界总有一个主观的先验判断,但是这个判断会随着世界的真实变化而随机修正,我对世界永远保持开放的态度。 1763年,民间科学家Thomas Bayes发表了一篇名为《An essay towards solv...

C++中随机数的生成

1.随机数由生成器和分布器结合产生 生成器generator:能够产生离散的等可能分布数值 分布器distributions: 能够把generator产生的均匀分布值映射到其他常见分布,如均匀分布uniform,正态分布normal,二项分布binomial,泊松分布poisson 2.分布器利用运算符()产生随机数,要传入一个generator对象作...