自信息和互信息、信息熵

摘要:
自信息的含义包括两个方面:1.自信息表示事件发生前,事件发生的不确定性。互信息可正可负,所以就有了任何两事件之间的互信息不可能大于其中任一事件的自信息。

自信息的含义包括两个方面:

1.自信息表示事件发生前,事件发生的不确定性。

2.自信息表示事件发生后,事件所包含的信息量,是提供给信宿的信息量,也是解除这种不确定性所需要的信息量。

互信息:

离散随机事件之间的互信息:

自信息和互信息、信息熵第1张

换句话说就是,事件x,y之间的互信息等于“x的自信息”减去 “y条件下x的自信息”。 I(x)表示x的不确定性,I(x|y)表示在y发生条件下x的不确定性,I(x;y)表示当y发生后x不确定性的变化。 两个不确定度之差,是不确定度消除的部分,代表已经确定的东西,实际就是由y发生所得到的关于x的信息量。互信息可正可负(但是自信息一定是正的),所以就有了任何两事件之间的互信息不可能大于其中任一事件的自信息。(毕竟I(x;y)=I(y;x)=I(x)-I(x|y)=I(y)-I(y|x), I(x|y)和I(y|x)皆大于0 )

如果x事件提供了关于另一事件y的负的信息量,说明x的出现不利于y的出现。

另一个角度,如果x和y统计独立,即I(x|y)=I(y|x)=0. 则就会出现I(x;y) = I(x) 这种情况!,这也说明了另一个问题,就是一个事件的自信息是任何其他事件所能提供的关于该事件的最大信息量。

信息熵:

含义:

1.在信源输出后,表示每个信源符号所提供的平均信息量。

2.在信源输出前,表示信源的平均不确定性。

3.表示信源随机性大小,H(x)大的,随机性大

4.当信源输出后,不确定性解除,熵可视为解除信源不确定性所需的信息量。

信息熵的计算:

离散信源的熵等于所对应的有根概率树上的所有节点(包括根节点,不包括叶)的分支熵用该节点概率加权的和,即H(x)=∑q(ui)H(ui) 式中q(ui)为节点ui的概率,H(ui)为节点ui的分支熵。

条件熵:

自信息和互信息、信息熵第2张

另外 【 H(1/2) = 2* -1*(1/2)log2(1/2) = 1 H(1/3)=3* -1*(1/3)log2(1/3) = log23 ≈1.585 bit/符号】

联合熵:

自信息和互信息、信息熵第3张

另外【 H(1/3,1/3,1/3)=3* -1*(1/3) (1/3) = log23≈1.585 bit/符号 ,H() 的括号中如果只有一个分数1/2,那么就代表是 H(1/2,1/2) 毕竟2*1/2=1,同理H(1/3)代表 H(1/3,1/3,1/3) 】

熵的基本性质:

1.对称性2.非负性 3.拓展性 4.可加性

有以下表述:

自信息和互信息、信息熵第4张

5.极值性

离散最大熵定理:对于有限离散随机变量集合,当集合中的事件等概率发生时,熵达到最大值。可由散度不等式证明:

自信息和互信息、信息熵第5张

即H(x)≤logn,仅当P(x)等概率分布时等号成立。

6.确定性 :当随机变量集合中任一事件概率为1时,熵就为0. 换个形式来说,从总体来看,信源虽含有许多消息,但只有一个消息几乎必然出现,而其他消息几乎都不出现,那么,这是一个确知信源,从熵的不确定性概念来讲,确知信源的不确定性为0.

7上凸性:H(p)=H(p1,p2,p3,...,pn)是(p1,p2,p3,...,pn)的严格上凸函数。

各类熵之间的关系:

1.条件熵与信息熵之间的关系

H(Y|X) ≤H(Y) 这说明了:在信息处理的过程中,条件越多,熵越小。

2.联合熵和信息熵的关系

H(X1X2...XN)≤∑i=1NH(Xi) 当且仅当Xi相互独立时,等式成立。

熵函数的唯一性:

如果熵函数满足:(1)是概率的连续函数 (2)信源符号等概率时是n(信源符号数)的增函数(H(X)=log2n); (3)可加性 (H(XY) = H(X) + H(Y|X) =H(Y) + H(X|Y) )

那么,熵函数的表示是唯一的,即只与定义公式相差一个常数因子。

免责声明:文章转载自《自信息和互信息、信息熵》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇urllib2.HTTPError: HTTP Error 403: Forbidden 解决方法 & requests get 403 errorsetTimeout、Promise、Async/Await 的区别下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

从决策树到随机森林

这里仅介绍分类决策树。 决策树:特征作为决策的判断依据,整个模型形如树形结构,因此,称之为决策树 对于分类决策树,他们可以认为是一组if-then规则的集合。决策树的每一个内部节点有特征组成,叶子节点代表了分类的结果。父节点和子节点之间是由有向边连接,表示了决策的结果。 在这里,有必要解释一下,为什么决策树的学习过程变成了三个步骤:特征选择、决策树生成和剪...

图像检索中类似度度量公式:各种距离(1)

基于内容的图像检索(Content-Based Image Retrieval)是指通过对图像视觉特征和上下文联系的分析,提取出图像的内容特征作为图像索引来得到所需的图像。 相似度度量方法 在基于内容的图像检索中须要通过计算查询和候选图像之间在视觉特征上的相似度匹配。 因此须要定义一个合适的视觉特征相似度度量方法对图像检索的效果无疑是一个非常大的影响。...

信息熵 和 算法时间复杂度

本文仅仅是我个人的理解,发现错误请告诉我一下。 前几天虽然看完了吴军先生的《数学之美》,但一直搞不懂信息熵所以连带着也没搞懂 最大熵的原理,直到今天白天看了TopLanguage的一个讨论信息论的帖子 再经过晚上散步时思考才顿悟信息熵的意义。 信息是个很抽象的概念。人们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底...

Python机器学习(1)——决策树分类算法

1、决策树算法 决策树用树形结构对样本的属性进行分类,是最直观的分类算法,而且也可以用于回归。不过对于一些特殊的逻辑分类会有困难。典型的如异或(XOR)逻辑,决策树并不擅长解决此类问题。 决策树的构建不是唯一的,遗憾的是最优决策树的构建属于NP问题。因此如何构建一棵好的决策树是研究的重点。 J. Ross Quinlan在1975提出将信息熵的概念引入决策...

fingerprint2 计算浏览器指纹分析

介绍 浏览器指纹简单来说就是获取浏览器一些具有辨识度的信息,计算得到的值,以此指纹信息可以对应此用户。辨识度的信息可以是 UA、时区、地理位置或者是你使用的语言等其他的参数,信息越多并且信息的区别度越大,越能决定浏览器指纹的准确性。 直接使用 fingerprint2 库 <script src="https://cdnjs.cloudflare.c...