引言
内容简介
机器学习是计算机科学与人工智能的重要分支领域.本书作为该领域的入
门教材,在内容上尽可能涵盖机器学习基础知识的各方面.全书共16章,
大致分为3个部分:第1部分(第1~3章)介绍机器学习的基础知识;第2
部分(第4~10章)讨论一些经典而常用的机器学习方法(决策树、神经
网络、支持向量机、贝叶斯分类器、集成学习、聚类、降维与度量学
习);第3部分(第11~16章)为进阶知识,内容涉及特征选择与稀疏学
习、计算学习理论、半监督学习、概率图模型、规则学习以及强化学习
等.每章都附有习题并介绍了相关阅读材料,以便有兴趣的读者进一步钻
研探索。
本书可作为高等院校计算机、自动化及相关专业的本科生或研究生
教材,也可供对机器学习感兴趣的研究人员和工程技术人员阅读参考。
作者简介
周志华,南京大学计算机系教授,ACM杰出科学家,IEEE Fellow,
IAPR Fellow, IET/IEE Fellow, 中国计算机学会会士。国家杰出青年
科学基金获得者、长江学者特聘教授。先后担任多种SCI(E)期刊执行主
编、副主编、副编辑、编委等。中国计算机学会人工智能与模式识别专
业委员会主任,中国人工智能学会机器学习专业委员会主任,IEEE计算
智能学会数据挖掘技术委员会副主席。
====================================
以下为个人学习笔记
第5章:神经网络
采样层亦称为“汇合”(Pooling)层,其作用是基于局部相关性原理进
行亚采样,从而在减少数据量的同时保留有用信息----国内很多材料都
把 Pooling 层翻译成“池化”层,从汉字字面上是完全没法池化跟亚采
样有什么关系的,个人觉得还是周老师翻译的采样层或汇合层更好理解
一些。
第6章:支持向量机
如果原始空间是有限维,即属性数有限,那么一定存在一个高维特征空
间使样本可分。
我们希望样本在特征空间内线性可分,因此特征空间的好坏对支持向量
机的性能至关重要,需要注意的是,在不知道特征映射的形式时,我们
并不知道什么样的核函数是合适的,而核函数也仅是隐式地定义了这个
特征空间。于是,“核函数选择”成为支持向量机的最大变数,若核函数
选择不合适,则意味着将样本映射到了一个不合适的特征空间,很可能
导致性能不佳。
第7章: 贝叶斯分类
欲使用贝叶斯判定准则来最小化决策风险,首先要获得后验概率
P(c|x),然而,在现实任务中这通常难以直接获得,从这个角度来
看,机器学习所要实现的是基于有限的训练样本集尽可能准确地估计出
后验概率 P(c|x)。大体来说,主要有两种策略:给定x,可通过直接
建模 P(c|x)来预测c,这样得到是“判别式模型”;也可以先对联合概
率分布P(x,c)建模,然后再由此获得P(c|x)这样得到的是“生成式
模型”。显然,前面介绍的决策树、BP神经网络、支持向量机等,都可归
入判别式模型的范畴。
因此估计P(c|x)的问题就转化为如何基于训练数据D来估计先验P(c)
和似然P(x|c)。
类先验概率P(c)表达了样本空间中各类样本所占的比例,根据大数定
律,当训练集包含充足的独立同分布样本时,P(c)可通过各类样本出
现的频率来进行估计。
对类条件概率P(x|c)来说,由于它涉及关于x所有属性的联合概率,直
接根据样本出现的频率来估计将会遇到严重的困难。在现实应用中,这
个值往往远大于训练样本数m,也就是说,很多样本取值在训练集中根本
没有出现,直接使用频率来估计P(x|c)显然不可行,因为“未被观测
到”与“出现概率为零”通常是不同的。
为了避免其他属性携带的信息被训练集中未出现的属性值“抹去”,
在估计概率值时通常要进行“平滑(smoothing)”,常用“拉普拉斯
修正”。显然,拉普拉斯修正避免了因训练集样本不充分而导致概率估
值为零的问题,并且在训练集变大时,修正过程所引入的先验的影响
也会逐渐变得可忽略,使得估值逐渐趋向于实际概率值
拉普拉斯修正实质上假设了属性值与类别均匀分布,这是在朴素贝叶
斯学习过程中额外引入的关于数据的先验。
为了降低贝叶斯公式中估计后验概率P(c|x)的困难,朴素贝叶斯分
类器采用了属性条件独立性假设,但在现实任务中这个假设往往很难
成立,于是,人们尝试了对属性条件独立性假设进行一定程度的放松,
由此产生了一类称为“半朴素贝叶斯分类器”的学习方法。半朴素贝叶
斯分类器的基本想法是适当考虑一部分属性间的相互依赖信息,从而
既不需要进行完全联合概率计算,又不至于彻底忽略了比较强的属性
依赖关系。