1 机器学习简介没记2 感知机没记3 k-近邻算法没记4 朴素贝叶斯分类器没记5 决策树没记6 Logistic回归和最大熵模型关于特征函数与期望特征函数𝑓(𝑥,𝑦)关于经验分布̂𝑃(𝑋,𝑌)的期望值:𝐸̂𝑃(𝑓)=𝑥,𝑦̂𝑃(𝑥,𝑦)𝑓(𝑥,𝑦)关于联合分布𝑃(𝑋,𝑌)的期望值:𝐸𝑃(𝑓)=𝑥,𝑦𝑃(𝑥,𝑦)𝑓(𝑥,𝑦)=𝑥,𝑦𝑃(𝑥)𝑃(𝑦|𝑥)𝑓(𝑥,𝑦)̂𝑃(𝑥)代替(or 估计)未知的𝑃(𝑥),就得到书上的公式。关于条件熵定义在条件概率分布𝑃(𝑌|𝑋)上的条件熵:𝐻(𝑃(𝑌|𝑋))𝐻(𝑃)=𝑥,𝑦̂𝑃(𝑥)𝑃(𝑦|𝑥)log𝑃(𝑦|𝑥)疑惑这里跟以往的𝐻(𝑃)=𝑃(𝑥)log𝑃(𝑥)不一样。注意条件熵的定义是,在一个变量𝑋的条件下(变量𝑋的每个值都会取),另一个变量𝑌熵对𝑋的期望,即:𝐻(𝑌|𝑋)=𝑥,𝑦𝑝(𝑥)𝐻(𝑌|𝑋=𝑥)用经验分布̂𝑃(𝑥)估计𝑃(𝑥),就得到书上的公式。最大熵模型的距离,讲的是更复杂的条件熵,距离用的是简单的熵。最大熵模型把内部极小化问题做好了,实际运用时考虑外部极大化问题。对偶函数的极大化等价于最大熵模型的极大似然估计:这里对数似然函数少个无关紧要的常数项乘积拟牛顿法看懵了P43 最后又用了个近似?改进的迭代尺度法,通过对𝐴(𝛿|𝑤)的进一步放缩,把𝑓𝑖(𝑥,𝑦) exp 中独立出来,方便后面求导Softmax 分类模型是最大熵模型的一个特例,LR Softmax 模型在二分类时的特例(当然也可以说 LR 不止二分类)7 支持向量机SVMPPT 51 页缺少了由两个不等式约束导出的两个对偶互补条件𝛼𝑖(1𝜉𝑖𝑦𝑖(𝑤𝑥𝑖+𝑏))=0𝜇𝑖𝜉𝑖=0𝛼𝑗 0 时,无法求出𝑏𝛼𝑗𝐶时,推出𝜇𝑗=0,导致无法确定𝜉𝑗0,因而也无法求出𝑏8 EM 算法三硬币模型的推导(有点小错)9 聚类方法欧式距离和夹角余弦的推广𝑑𝑖𝑗=(𝑚𝑘=1|𝑥𝑘𝑖𝑥𝑘𝑗|2)12or𝑚𝑘=1𝑥𝑘𝑖𝑥𝑘𝑗𝑥𝑖𝑥𝑗𝑑𝑖𝑗=((𝑥𝑖𝑥𝑗)𝑇𝑀(𝑥𝑖𝑥𝑗))12or𝑑𝑖𝑗=𝑥𝑇𝑖𝑀𝑥𝑗,令𝑀=𝐿𝑇𝐿这个𝑀是需要学习出来的,相当与是对所有数据先进行一个线性变换,再计算欧式距离或夹角余弦并聚类这样,两个数据之间的距离考虑到了整个数据集性质,效果会更好,这就是度量学习关于机器学习中的协方差矩阵和数学中的协方差矩阵,对机器学习中的协方差矩阵还是傻傻的搞不清楚?这次我终于捋明白了!聚类={{{{{{{层次聚类={聚合聚类分裂聚类10 谱聚类应该算是拓展?书上没有拉普拉斯矩阵一定有一个 0 特征值,对应的特征向量是全 1 向量,它的重数就是图的连通分量数,但在实际情况中,可能会小于(因为图的联通分量之间可能还有很弱的链接),为此采用前 k 个最小特征值本质上就是从原始空间转到与谱定理相关的特征空间,在特征空间中进行聚类而归一化的目的就是让这个特征空间的效果更好。理论上是否有解释?还是就是工程经验?P42 页怎么理解,𝐻就是我们要学习的特征空间(之前表述为𝑈),设其中一个向量为𝑢𝑖𝑢𝑇𝑖𝐿𝑢𝑖=𝜆𝑖𝑢𝑇𝑖𝑢𝑖=𝜆𝑖𝑢𝑖,如果让𝑢𝑖一化,那么就等于𝜆𝑖,求trace的最小也就是取最小的𝑘个特征值