1 信息论在学习《统计学习方法》和《机器学习》(周志华)时,经常遇到信息论的一些概念1948 年,香农将热力学的熵,引入到信息论,因此它又被称为香农熵 (Shannon entropy)这里简单对一些公式进行归纳,不做过多解释另外可以参考 信息熵、交叉熵、KL散度、JS散度、Wasserstein距离 (entropy)𝐻(𝑋)=𝑥𝑋𝑝(𝑥)log𝑏𝑝(𝑥)𝐻(𝑋)=𝑝(𝑥)log𝑏𝑝(𝑥)d𝑥熵是对不确定性的度量(或者说多样性 diversity 的度量),熵越大,不确定性越大,正确估计其值的可能性就越小(需要越大的信息量用以确定其值)单位取决于定义时对数的底。当𝑏=2,熵的单位是 bit通常来讲我们只用管这个,后面默认𝑏=2具有非负性、对称性(重排概率不变)、极值性加权形式:加权熵(weighted entropy)𝐻𝑤(𝑋)=𝑥𝑋𝑤(𝑥)𝑝(𝑥)log𝑝(𝑥)𝐻𝑤(𝑋)=𝑤(𝑥)𝑝(𝑥)log𝑝(𝑥)d𝑥就比普通熵多了一个权重𝑤(𝑥),用以刻画不同信息的重要性联合熵 (joint entropy)𝐻(𝑋,𝑌)=𝑥𝑋𝑦𝑌𝑝(𝑥,𝑦)log𝑝(𝑥,𝑦)𝐻(𝑋,𝑌)=𝑝(𝑥,𝑦)log𝑝(𝑥,𝑦)d𝑥d𝑦描述一对随机变量平均所需要的信息量条件熵 (conditional entropy)𝐻(𝑌|𝑋)=𝐻(𝑋,𝑌)𝐻(𝑋)𝐻(𝑌|𝑋)=𝑥𝑋𝑝(𝑥)𝐻(𝑌|𝑋=𝑥)=𝑥𝑋𝑦𝑌𝑝(𝑥,𝑦)log𝑝(𝑦|𝑥)𝐻(𝑌|𝑋)=𝑝(𝑥,𝑦)log𝑝(𝑦|𝑥)d𝑥d𝑦在已知随机变量𝑋的条件下,随机变量𝑌的不确定性具有非负性、链式法则与条件减性相对熵 (relative entropy)或者叫 KL 散度 (Kullback-Leibler divergence)KL(𝑝𝑞)=𝑥𝑋𝑝(𝑥)log𝑝(𝑥)𝑞(𝑥)KL(𝑝𝑞)=𝑝(𝑥)log𝑝(𝑥)𝑞(𝑥)d𝑥两个概率分布𝑝𝑞之间的差异具有不对称性,非负性KL 散度在 AI 中极其常用跟传统距离度量的区别在于,它衡量两个概率分布之间的差异,而不是两个确定的点之间的差异因此在比如 GAN, Diffusion 等生成模型中,KL 散度是一个重要的优化目标JS 散度 (Jensen-Shannon divergence)JS(𝑝𝑞)=12KL(𝑝𝑝+𝑞2)+12KL(𝑞𝑝+𝑞2)解决了 KL 散度非对称的问题,取值范围在[0,1]Wasserstein 距离𝑊(𝑝,𝑞)=inf𝛾Π(𝑝,𝑞)𝑥𝑦d𝛾(𝑥,𝑦)Π(𝑝,𝑞)𝑝𝑞之间所有可能的联合分布的集合,对每个可能的联合分布𝛾,采样得到𝑥,𝑦,对𝑥,𝑦的距离求期望,所有𝛾的期望值下界就是 Wasserstein 距离Wessertein 距离相比 KL 散度和 JS 散度的优势在于:即使两个分布的支撑集没有重叠或者重叠非常少,仍然能反映两个分布的远近;而 JS 散度在此情况下是常量,KL 散度可能无意义Wasserstein 被应用于 GAN缓解了训练不稳定的问题交叉熵 (cross entropy)𝐻(𝑝,𝑞)=KL(𝑝𝑞)+𝐻(𝑝)𝐻(𝑝,𝑞)=𝑥𝑋𝑝(𝑥)log𝑞(𝑥)𝐻(𝑝,𝑞)=𝑝(𝑥)log𝑞(𝑥)d𝑥两个概率分布𝑝𝑞之间的差异,通常是衡量预测分布和真实分布之间的差异,预测越准确,交叉熵越小具有不对称性,非负性互信息 (mutual Information)𝐼(𝑋;𝑌)=𝐻(𝑋)+𝐻(𝑌)𝐻(𝑋,𝑌)=𝐻(𝑋)𝐻(𝑋|𝑌)=𝐻(𝑌)𝐻(𝑌|𝑋)=KL(𝑝(𝑥,𝑦)𝑝(𝑥)𝑝(𝑦))𝐼(𝑋;𝑌)=𝑦𝑌𝑥𝑋𝑝(𝑥,𝑦)log𝑝(𝑥,𝑦)𝑝(𝑥)𝑝(𝑦)𝐼(𝑋;𝑌)=𝑝(𝑥,𝑦)log𝑝(𝑥,𝑦)𝑝(𝑥)𝑝(𝑦)d𝑥d𝑦可以把互信息看成由于知道𝑌值而造成的𝑋的不确定性的减小,反之亦然(即𝑌的值透露了多少关于𝑋的信息量),例如,如果𝑋𝑌相互独立,则𝐼(𝑋;𝑌)=0具有对称性、非负性、极值性