Crd233's Notebook
Home
Courses
Languages
Math
CG
CV
AI
Reading
其它
1
信息论
●
在学习《统计学习方法》和《机器学习》(周志华)时,经常遇到信息论的一些概念
○
1948
年,香农将热力学的熵,引入到信息论,因此它又被称为香农熵
(
Shannon entropy)
○
这里简单对一些公式进行归纳,不做过多解释
○
另外可以参考
信息熵、交叉熵、
KL
散度、
JS
散度、
Wasserstein
距离
●
熵
(
entropy)
𝐻
(
𝑋
)
=
−
∑
𝑥
∈
𝑋
𝑝
(
𝑥
)
log
𝑏
𝑝
(
𝑥
)
𝐻
(
𝑋
)
=
−
∫
𝑝
(
𝑥
)
log
𝑏
𝑝
(
𝑥
)
d
𝑥
○
熵是对不确定性的度量(或者说多样性
diversity
的度量),熵越大,不确定性越大,正确估计其值的可能性就越小(需要越大的信
息量用以确定其值)
○
单位取决于定义时对数的底。当
𝑏
=
2
,熵的单位是
bit
(
通常来讲我们只用管这个,后面默认
𝑏
=
2
)
○
具有非负性、对称性(重排概率不变)、极值性
○
加权形式:加权熵
(
weighted entropy)
𝐻
𝑤
(
𝑋
)
=
−
∑
𝑥
∈
𝑋
𝑤
(
𝑥
)
𝑝
(
𝑥
)
log
𝑝
(
𝑥
)
𝐻
𝑤
(
𝑋
)
=
−
∫
𝑤
(
𝑥
)
𝑝
(
𝑥
)
log
𝑝
(
𝑥
)
d
𝑥
■
就比普通熵多了一个权重
𝑤
(
𝑥
)
,用以刻画不同信息的重要性
●
联合熵
(
joint entropy)
𝐻
(
𝑋
,
𝑌
)
=
−
∑
𝑥
∈
𝑋
∑
𝑦
∈
𝑌
𝑝
(
𝑥
,
𝑦
)
log
𝑝
(
𝑥
,
𝑦
)
𝐻
(
𝑋
,
𝑌
)
=
−
∫
𝑝
(
𝑥
,
𝑦
)
log
𝑝
(
𝑥
,
𝑦
)
d
𝑥
d
𝑦
○
描述一对随机变量平均所需要的信息量
●
条件熵
(
conditional entropy)
𝐻
(
𝑌
|
𝑋
)
=
𝐻
(
𝑋
,
𝑌
)
−
𝐻
(
𝑋
)
𝐻
(
𝑌
|
𝑋
)
=
−
∑
𝑥
∈
𝑋
𝑝
(
𝑥
)
𝐻
(
𝑌
|
𝑋
=
𝑥
)
=
−
∑
𝑥
∈
𝑋
∑
𝑦
∈
𝑌
𝑝
(
𝑥
,
𝑦
)
log
𝑝
(
𝑦
|
𝑥
)
𝐻
(
𝑌
|
𝑋
)
=
−
∫
𝑝
(
𝑥
,
𝑦
)
log
𝑝
(
𝑦
|
𝑥
)
d
𝑥
d
𝑦
○
在已知随机变量
𝑋
的条件下,随机变量
𝑌
的不确定性
○
具有非负性、链式法则与条件减性
●
相对熵
(
relative entropy)
○
或者叫
KL
散度
(
Kullback-Leibler divergence)
KL
(
𝑝
‖
𝑞
)
=
∑
𝑥
∈
𝑋
𝑝
(
𝑥
)
log
𝑝
(
𝑥
)
𝑞
(
𝑥
)
KL
(
𝑝
‖
𝑞
)
=
∫
𝑝
(
𝑥
)
log
𝑝
(
𝑥
)
𝑞
(
𝑥
)
d
𝑥
○
两个概率分布
𝑝
和
𝑞
之间的差异
○
具有不对称性,非负性
○
KL
散度在
AI
中极其常用
■
跟传统距离度量的区别在于,它衡量两个概率分布之间的差异,而不是两个确定的点之间的差异
■
因此在比如
GAN, Diffusion
等生成模型中,
KL
散度是一个重要的优化目标
○
JS
散度
(
Jensen-Shannon divergence)
JS
(
𝑝
‖
𝑞
)
=
1
2
KL
(
𝑝
‖
𝑝
+
𝑞
2
)
+
1
2
KL
(
𝑞
‖
𝑝
+
𝑞
2
)
■
解决了
KL
散度非对称的问题,取值范围在
[
0
,
1
]
○
Wasserstein
距离
𝑊
(
𝑝
,
𝑞
)
=
inf
𝛾
∈
Π
(
𝑝
,
𝑞
)
∫
∫
‖
𝑥
−
𝑦
‖
d
𝛾
(
𝑥
,
𝑦
)
■
Π
(
𝑝
,
𝑞
)
是
𝑝
和
𝑞
之间所有可能的联合分布的集合,对每个可能的联合分布
𝛾
,采样得到
𝑥
,
𝑦
,对
𝑥
,
𝑦
的距离求期望,所有
𝛾
的期
望值下界就是
Wasserstein
距离
■
Wessertein
距离相比
KL
散度和
JS
散度的优势在于:即使两个分布的支撑集没有重叠或者重叠非常少,仍然能反映两个分布的
远近;而
JS
散度在此情况下是常量,
KL
散度可能无意义
■
Wasserstein
被应用于
GAN
,
缓解了训练不稳定的问题
●
交叉熵
(
cross entropy)
𝐻
(
𝑝
,
𝑞
)
=
KL
(
𝑝
‖
𝑞
)
+
𝐻
(
𝑝
)
𝐻
(
𝑝
,
𝑞
)
=
−
∑
𝑥
∈
𝑋
𝑝
(
𝑥
)
log
𝑞
(
𝑥
)
𝐻
(
𝑝
,
𝑞
)
=
−
∫
𝑝
(
𝑥
)
log
𝑞
(
𝑥
)
d
𝑥
○
两个概率分布
𝑝
和
𝑞
之间的差异,通常是衡量预测分布和真实分布之间的差异,预测越准确,交叉熵越小
○
具有不对称性,非负性
●
互信息
(
mutual Information)
𝐼
(
𝑋
;
𝑌
)
=
𝐻
(
𝑋
)
+
𝐻
(
𝑌
)
−
𝐻
(
𝑋
,
𝑌
)
=
𝐻
(
𝑋
)
−
𝐻
(
𝑋
|
𝑌
)
=
𝐻
(
𝑌
)
−
𝐻
(
𝑌
|
𝑋
)
=
KL
(
𝑝
(
𝑥
,
𝑦
)
‖
𝑝
(
𝑥
)
𝑝
(
𝑦
)
)
𝐼
(
𝑋
;
𝑌
)
=
∑
𝑦
∈
𝑌
∑
𝑥
∈
𝑋
𝑝
(
𝑥
,
𝑦
)
log
𝑝
(
𝑥
,
𝑦
)
𝑝
(
𝑥
)
𝑝
(
𝑦
)
𝐼
(
𝑋
;
𝑌
)
=
∫
𝑝
(
𝑥
,
𝑦
)
log
𝑝
(
𝑥
,
𝑦
)
𝑝
(
𝑥
)
𝑝
(
𝑦
)
d
𝑥
d
𝑦
○
可以把互信息看成由于知道
𝑌
值而造成的
𝑋
的不确定性的减小,反之亦然(即
𝑌
的值透露了多少关于
𝑋
的信息量),例如,如果
𝑋
和
𝑌
相互独立,则
𝐼
(
𝑋
;
𝑌
)
=
0
○
具有对称性、非负性、极值性