Crd233's Notebook
Home
Courses
Languages
Math
CG
CV
AI
Reading
其它
1
机器学习简介
●
没记
2
感知机
●
没记
3
k-
近邻算法
●
没记
4
朴素贝叶斯分类器
●
没记
5
决策树
●
没记
6
Logistic
回归和最大熵模型
●
关于特征函数与期望
特征函数
𝑓
(
𝑥
,
𝑦
)
关于经验分布
̂
𝑃
(
𝑋
,
𝑌
)
的期望值
:
𝐸
̂
𝑃
(
𝑓
)
=
∑
𝑥
,
𝑦
̂
𝑃
(
𝑥
,
𝑦
)
𝑓
(
𝑥
,
𝑦
)
关于联合分布
𝑃
(
𝑋
,
𝑌
)
的期望值:
𝐸
𝑃
(
𝑓
)
=
∑
𝑥
,
𝑦
𝑃
(
𝑥
,
𝑦
)
𝑓
(
𝑥
,
𝑦
)
=
∑
𝑥
,
𝑦
𝑃
(
𝑥
)
𝑃
(
𝑦
|
𝑥
)
𝑓
(
𝑥
,
𝑦
)
用
̂
𝑃
(
𝑥
)
代替(
or
估计)未知的
𝑃
(
𝑥
)
,就得到书上的公式。
●
关于条件熵
定义在条件概率分布
𝑃
(
𝑌
|
𝑋
)
上的条件熵:
𝐻
(
𝑃
(
𝑌
|
𝑋
)
)
⏟
⏟
⏟
⏟
⏟
𝐻
(
𝑃
)
=
−
∑
𝑥
,
𝑦
̂
𝑃
(
𝑥
)
𝑃
(
𝑦
|
𝑥
)
log
𝑃
(
𝑦
|
𝑥
)
疑惑这里跟以往的
𝐻
(
𝑃
)
=
−
∑
𝑃
(
𝑥
)
log
𝑃
(
𝑥
)
不一样。
注意条件熵的定义是,在一个变量
𝑋
的条件下(变量
𝑋
的每个值都会取),另一个变量
𝑌
熵对
𝑋
的期望,即:
𝐻
(
𝑌
|
𝑋
)
=
∑
𝑥
,
𝑦
𝑝
(
𝑥
)
𝐻
(
𝑌
|
𝑋
=
𝑥
)
用经验分布
̂
𝑃
(
𝑥
)
估计
𝑃
(
𝑥
)
,就得到书上的公式。
●
最大熵模型的距离,讲的是更复杂的条件熵,距离用的是简单的熵。
●
最大熵模型把内部极小化问题做好了,实际运用时考虑外部极大化问题。
●
对偶函数的极大化等价于最大熵模型的极大似然估计:
○
这里对数似然函数少个无关紧要的常数项乘积
●
拟牛顿法看懵了
○
P43
最后又用了个近似?
●
改进的迭代尺度法,通过对
𝐴
(
𝛿
|
𝑤
)
的进一步放缩,把
𝑓
𝑖
(
𝑥
,
𝑦
)
从
exp
中独立出来,方便后面求导
●
Softmax
分类模型是最大熵模型的一个特例,
LR
是
Softmax
模型在二分类时的特例(当然也可以说
LR
不止二分类)
7
支持向量机
SVM
●
PPT 51
页缺少了由两个不等式约束导出的两个对偶互补条件
𝛼
𝑖
(
1
−
𝜉
𝑖
−
𝑦
𝑖
(
𝑤
⋅
𝑥
𝑖
+
𝑏
)
)
=
0
−
𝜇
𝑖
𝜉
𝑖
=
0
𝛼
𝑗
为
0
时,无法求出
𝑏
;
𝛼
𝑗
为
𝐶
时,推出
𝜇
𝑗
=
0
,导致无法确定
𝜉
𝑗
为
0
,因而也无法求出
𝑏
。
8
EM
算法
●
三硬币模型的推导(有点小错)
9
聚类方法
●
欧式距离和夹角余弦的推广
𝑑
𝑖
𝑗
=
(
∑
𝑚
𝑘
=
1
|
𝑥
𝑘
𝑖
−
𝑥
𝑘
𝑗
|
2
)
1
2
or
∑
𝑚
𝑘
=
1
𝑥
𝑘
𝑖
𝑥
𝑘
𝑗
‖
𝑥
𝑖
‖
‖
𝑥
𝑗
‖
○
⇒
𝑑
𝑖
𝑗
=
(
(
𝑥
𝑖
−
𝑥
𝑗
)
𝑇
𝑀
(
𝑥
𝑖
−
𝑥
𝑗
)
)
1
2
or
𝑑
𝑖
𝑗
=
𝑥
𝑇
𝑖
𝑀
𝑥
𝑗
,令
𝑀
=
𝐿
𝑇
𝐿
○
这个
𝑀
是需要学习出来的,相当与是对所有数据先进行一个线性变换,再计算欧式距离或夹角余弦并聚类
○
这样,两个数据之间的距离考虑到了整个数据集性质,效果会更好,这就是
“
度量学习
”
。
●
关于机器学习中的协方差矩阵和数学中的协方差矩阵,
对机器学习中的协方差矩阵还是傻傻的搞不清楚?这次我终于捋明白了!
聚类
=
{
{
{
{
{
{
{
层次聚类
=
{
聚合聚类
分裂聚类
10
谱聚类
●
应该算是拓展?书上没有
●
拉普拉斯矩阵一定有一个
0
特征值,对应的特征向量是全
1
向量,
○
它的重数就是图的连通分量数,但在实际情况中,可能会小于(因为图的联通分量之间可能还有
很弱的链接
),为此采用前
k
个最小
特征值
○
本质上就是从原始空间转到与谱定理相关的特征空间,在特征空间中进行聚类
○
而归一化的目的就是让这个特征空间的效果更好。理论上是否有解释?还是就是工程经验?
●
P42
页怎么理解,
𝐻
就是我们要学习的特征空间(之前表述为
𝑈
),设其中一个向量为
𝑢
𝑖
,
𝑢
𝑇
𝑖
𝐿
𝑢
𝑖
=
𝜆
𝑖
𝑢
𝑇
𝑖
𝑢
𝑖
=
𝜆
𝑖
‖
𝑢
𝑖
‖
,如果让
𝑢
𝑖
归
一化,那么就等于
𝜆
𝑖
,求
trace
的最小也就是取最小的
𝑘
个特征值