KL散度的理解,kl散度的理解计算相似性

KL散度的理解

摘要：

KL散度的计算现在我们可以量化数据中的信息量，我们可以测量由近似分布引起的信息损失。KL散度的计算公式实际上是熵计算公式的简单变体。将我们的近似概率分布q添加到原始概率分布p上，并计算每个值对应的对数之差：DKL=∑i=1Np换句话说，KL散度计算原始分布的概率和数据的近似分布的对数差的期望值。在一定的变化范围内，当KL散度达到最小值时，相应的参数就是我们想要的最佳参数。这是使用KL发散优化的过程。

原文地址Count Bayesie
这篇文章是博客Count Bayesie上的文章Kullback-Leibler Divergence Explained 的学习笔记，原文对 KL散度 的概念诠释得非常清晰易懂，建议阅读

KL散度( KL divergence)

全称：Kullback-Leibler Divergence
用途：比较两个概率分布的接近程度
在统计应用中，我们经常需要用一个简单的，近似的概率分布 f∗ 来描述
观察数据 D 或者另一个复杂的概率分布 f 。这个时候，我们需要一个量来衡量我们选择的近似分布 f∗ 相比原分布 f 究竟损失了多少信息量，这就是KL散度起作用的地方。

熵（entropy）

想要考察 信息量 的损失，就要先确定一个描述信息量的量纲。
在信息论这门学科中，一个很重要的目标就是量化描述数据中含有多少信息。
为此，提出了熵的概念，记作 H
一个概率分布所对应的熵表达如下：

H=−∑i=1Np(xi)⋅logp(xi)

如果我们使用 log2 作为底，熵可以被理解为：我们编码所有信息所需要的最小位数(minimum numbers of bits)
需要注意的是：通过计算熵，我们可以知道信息编码需要的最小位数，却不能确定最佳的数据压缩策略。怎样选择最优数据压缩策略，使得数据存储位数与熵计算的位数相同，达到最优压缩，是另一个庞大的课题。

KL散度的计算

现在，我们能够量化数据中的信息量了，就可以来衡量近似分布带来的信息损失了。
KL散度的计算公式其实是熵计算公式的简单变形,在原有概率分布 p 上，加入我们的近似概率分布 q，计算他们的每个取值对应对数的差：

DKL(p||q)=∑i=1Np(xi)⋅(logp(xi)−logq(xi))

换句话说，KL散度计算的就是数据的原分布与近似分布的概率的对数差的期望值。
在对数以2为底时，log2 ，可以理解为“我们损失了多少位的信息”
写成期望形式

DKL(p||q)=E[logp(x)−log(q(x)]

更常见的是以下形式：

DKL(p||q)=∑i=1Np(xi)⋅logp(xi）q(xi)

现在，我们就可以使用KL散度衡量我们选择的近似分布与数据原分布有多大差异了。

散度不是距离

DKL(p||q)≠DKL(q||p)

因为KL散度不具有交换性，所以不能理解为“距离”的概念，衡量的并不是两个分布在空间中的远近，更准确的理解还是衡量一个分布相比另一个分布的信息损失(infomation lost)

使用KL散度进行优化

通过不断改变预估分布的参数，我们可以得到不同的KL散度的值。
在某个变化范围内，KL散度取到最小值的时候，对应的参数是我们想要的最优参数。
这就是使用KL散度优化的过程。

VAE(变分自动编码)

神经网络进行的工作很大程度上就是“函数的近似”(function approximators)
所以我们可以使用神经网络学习很多复杂函数，学习过程的关键就是设定一个目标函数来衡量学习效果。
也就是通过最小化目标函数的损失来训练网络(minimizing the loss of the objective function)
使用KL散度来最小化我们近似分布时的信息损失，让我们的网络可以学习很多复杂分布。
一个典型应用是VAE
Tutorial on VAE

免责声明：文章转载自《KL散度的理解》仅用于学习参考。如对内容有疑问，请及时联系本站处理。

KL散度的理解

KL散度( KL divergence)

熵（entropy）

KL散度的计算

散度不是距离

使用KL散度进行优化

VAE(变分自动编码)

相关文章

Wasserstein GAN

JS散度(Jensen-Shannon)

KL散度

最新文章

随机推荐

思享工具箱导航

JSON工具

格式化转换

加解密编码

文本数字

网络

站长

计算

其他

对照列表