香农熵，交叉熵和KL散度

diffusion model涉及的东西太多了，补知识ing

饮水思源：【10分钟】了解香农熵，交叉熵和KL散度_哔哩哔哩_bilibili

信息量

是一个人为定义

一般认为：

事件的概率越大，信息量越少

事件的概率越小，信息量越大

我们定义事件的概率为 $p(x)$ ,则信息量为 $I(x)=log_2(\frac{1}{p(x)})=-log_2(p(x))$ .

符合前面的定义

香农熵

一个概率分布的平均信息量，通常也是不确定性(uncertainty)度量的标准

公式定义为 $H(x)=\sum{p_i I^p_i}=\sum{p_i log_2(\frac{1}{p_i})}$

以硬币为例子

假设正反的概率 $p(h)=p(t)=0.5$

则 $H(p)=p(h) \times log_2(\frac{1}{p(h)})+p(t) \times log_2(\frac{1}{p(t)})=0.5 \times 1+ 0.5\times 1 = 1$

假设正面的概率 $q(h)=0.2$ ，反面的概率为 $q(t)=0.8$

则 $H(q)=q(h) \times log_2(\frac{1}{q(h)}) + q(t) \times log_2(\frac{1}{q(t)}) = 0.2 \times log_25+0.8 \times (log_25-2) = log_25 - 1.6 = 0.72$

对于一个确定的概率密度函数(p)

如果它越均匀，也就是如果它各种情况出现的概率越平均，说明越不确定，熵越大（当硬币正反都是0.5时，香农熵为1）

如果它越集中，也就是如果它各种情况出现的概率差距越大，说明越确定（有某一个出现的概率很大），熵越小

交叉熵

这个比较有意思

它计算的是预测出来的GT（ground truth）概率分布的平均信息熵。（确实挺绕的）

按照视频里的英文是，given estimated probability distribution, the estimation of expected amount of information of ground truth probability distribution.

因为涉及到两个部分，一个真实的概率一个预测出来的概率，所以称为交叉熵。

//当作没有这行……我们假设GT是 $p(h)=p(t)=0.5$ ，预测出来的 $q(h)=0.2,q(t)=0.8$

交叉熵的公式为 $H(p,q)= \sum{p_iI_i^q}= \sum{p_ilog_2{\frac{1}{q_i}}} = -\sum {p_ilog_2q_i}$

可以理解成用真实的概率 $\mathbf{p_i}$ 作为预测出来的概率 $\mathbf{q_i}$ 的信息量的权重，进行加权求和

（不想写例子了，这个latex公式敲的好累，具体例子看视频吧）

当预测出来的概率越接近真实值时，交叉熵的值越接近于真实的熵值。（这里的熵指的是香农熵）

KL散度

来了兄弟们

单说公式，特别简单，就是两个分布之间的交叉熵减去其中一个的熵。用于衡量两个分布之间的差距

公式为

$D(p||q) = H(p,q) - H(p) = \sum{p_iI^q_i} - \sum{p_iI_i^p} = \sum{p_ilog_2{\frac{1}{q_i}}} - \sum{p_ilog_2{\frac{1}{p_i}}} = \sum{p_ilog_2{p_i}} - \sum{p_ilog_2{q_i}} = \sum{p_ilog_2{\frac{p_i}{q_i}}}$

有俩重要的性质（至于这俩性质的推导我就没管了，感觉知道就行）

1、非负性 $D(p||q)\geq 0$ 当且仅当两个分布完全一样时会等于0

2、非对称性 $D(p||q) \neq D(q||p)$ ，说明该指标衡量的不是距离

在机器学习中，最小化KL散度有时候等价于最小化交叉熵

从梯度（求导）的角度来看 $\nabla_{\theta}D(p||q_{\theta}) = \nabla_{\theta}H(p,q)-\nabla_{\theta}H(p) = \nabla_{\theta}H(p,q)$

KL的另一种推导方法，更加直观，感觉这就写的挺好的，我就不再手打了

总结

上公式最直接了, $p_i$ 是某事件的概率

信息量： $I(x)=log_2(\frac{1}{p(x)})=-log_2(p(x))$ .

香农熵： $H(x)=\sum{p_i I^p_i}=\sum{p_i log_2(\frac{1}{p_i})}$

交叉熵： $H(p,q)= \sum{p_iI_i^q}= \sum{p_ilog_2{\frac{1}{q_i}}} = -\sum {p_ilog_2q_i}$

KL散度：

终于能接着学后面的了，东西真多