人工智能技术已经成为当前技术变革的主要推动力之一,从计算机科学到工程学等许多科学技术领域都在竭尽全力想用自动化的方法创造更大的价值。要想做到这一点,工程师当然必须要对当前最具潜力的机器学习方法有一个大致了解。伦敦国王学院信息学习教授OsvaldoSimeone公开发布了长达页的最新专著,为工程师提供了全面细致的机器学习入门介绍。
本专著的目标是介绍机器学习领域内的关键概念、算法和理论框架,涵盖了监督学习与无监督学习、统计学习理论、概率图模型和近似推断等方向。本专著的目标读者是具有概率学和线性代数背景的电气工程师。本书基于第一原理(firstprinciple)写作,并按照有清晰定义的分类方式对其中的主要思想进行了组织,其中的类别包含鉴别式模型和生成式模型、频率论者和贝叶斯方法、准确推断和近似推断、有向模型和无向模型、凸优化和非凸优化。本书中的数学框架使用了信息论的描述方式,以便工具具有统一性。书中提供了简单且可重复的数值示例,以便读者了解相关的关键动机和结论。本专著的目的并不是要为每个特定类别中已有的大量解决方案提供详尽的细节描述(这些描述读者可参阅教科书和论文了解),而是为了给工程师提供一个切入点,以便他们能借此进一步深入机器学习相关文献。
1引言
1.1机器学习
1.2目标和纲要
2线性回归入门介绍
2.1监督学习
2.2推断
2.3频率论者
2.4贝叶斯方法
2.5最小描述长度(MDL)
2.6解释与因果关系
2.7信息论指标
2.8总结
3概率学习模型
3.1指数分布族
3.2最大熵性质
3.3频率学习(FrequentistLearning)
3.4贝叶斯学习
3.5基于能量的模型(Energy-basedModels)
3.6通过广义线性模型(GLM)的监督学习
3.7总结
4分类
4.1将分类作为监督学习问题
4.2随机梯度下降
4.3判别式确定性模型
4.4判别式概率模型
4.5生成式概率模型
4.6多类别分类
4.7非线性判别式模型:深度神经网络
4.8Boosting
4.9总结
5统计学习理论
5.1监督学习的一种形式框架
5.2PAC可学习性和样本复杂性
5.3有限假设类别的PAC可学习性
5.4VC维和PAC学习的基本定理
5.5总结
6无监督学习
6.1无监督学习
6.2K-均值聚类
6.3ML、ELBO和EM
6.4有向生成模型
6.5无向生成模型
6.6判别式模型
6.7自编码器
6.8Ranking
6.9总结
7概率图模型
7.1介绍
7.2贝叶斯网络
7.3马尔可夫随机场
7.4概率图模型中的贝叶斯推断
7.5总结
8近似推断和学习
8.1蒙特卡罗方法
8.2变分推断
8.3基于蒙特卡罗的变分推断
8.4近似学习
8.5总结
9结语
附录
A附录A:信息度量
A.1熵
A.2条件熵和互信息
A.3散度度量
B附录B:KL散度和指数分布族
致谢
参考文献
介绍
当我在教授机器学习课程时,有着工程学背景的同事和学生经常问及:如何更好地入门机器学习。我通常会以书籍推荐的形式回应——一般但稍微过时的介绍,请读这本书;对于基于概率模型方法的详细调查,请查看这些索引;如果想要了解统计学习,我觉得这篇文章很有用;如此等等。结果证明这些回答无法使我与提问者满意。书籍很多很厚,使得繁忙的工程学教授和学生望而却步。因此我首次撰写了这篇专论,一篇基础且体量适当的入门书,其中通过简单的术语面向工程师统一介绍了机器学习主要思想和原理,同时涵盖了其最新发展和文献指导,以供进一步研究。
第二章,线性回归入门介绍
第二章我们回顾了三个核心的学习框架,即频率论者(frequentist)、贝叶斯和MDL。频率论者为数据假定了真实、未知分布的存在,并致力于学习一个预测器(predictor),从而更好地泛化来自这一分布的不可见数据。这可通过学习一个插入最优预测器表达式的概率模型或者直接解决预测变量上的ERM问题而完成。贝叶斯方法输出一个预测分布,可通过解决计算不可见标签上后验分布的推断问题而整合先验信息与数据。最后,MDL方法旨在筛选一个模型,允许使用最少的比特描述数据,因此去除在未观察实例上泛化的任务。本章也广泛讨论了过拟合的关键问题,展示了学习算法的性能可就偏差和评估错误获得理解。运行实例是用于高斯模型的线形回归中的一个。下一章将会介绍更多学习构建和学习常见概率模型的工具。
第三章,概率学习模型
本章中,我们回顾了概率模型的一个重要类别——指数族,它被广泛用作学习算法的组件以完成监督、无监督学习任务。这一类别成员的关键属性是由同一家族中的梯度LL和共轭先验的可用性采用的简单形式。下一章我们将讲述指数族在解决分类问题方面的不同应用模型。
第四章,分类
本章扼要概述了分类的关键问题。按照第二章提出的分类系统,我们依据用来连接解释性变量与标签的模型类型划分了学习算法。尤其地,我们描述了线性与非线性的确定性判别模型,涵盖了用于多层神经网络的感知机算法、SVM、反向传播;聚焦于GLM的概率判别模型;包括QDA和LDA在内的概率生成模型。我们同样介绍了混合模型与提升方法(Boosting)。尽管本章聚焦在算法方面,下一章将讨论一个理论框架,研究监督学习的性能。
第五章,统计学习理论
本章描述了经典的PAC框架,并用它分析监督学习的泛化性能。我们知道VC维理论定义了模型的能力,这就意味着VC维在给定模型准确度和置信度上度量了其学习所需要的样本数量。在下一章中,我们将从监督学习进一步讨论无监督学习问题。
第六章,无监督学习
在本章节中,我们回顾了无监督学习的基础知识。优秀的无监督学习方法一般都通过隐变量或潜在变量帮助解释数据的结构。我们首先通过期望最大化算法(EM)回顾了机器学习及各种变体。随后介绍了机器学习生成模型GAN,该方法使用从数据中学到的散度度量以代替KL散度。随后接着回顾了通过InfoMax原则训练的判别模型和自编码器。在下一章节中,我们通过讨论概率图模型的强大框架而扩展了对概率模型的理解。
第七章,概率图模型
概率图模型将关于数据结构的先验信息编码为因果关系的形式,即通过有向图和贝叶斯网络(BN),或通过无向图和马尔可夫随机场(MRF)编码为相互之间的依赖性关系。这种结构可以表示为条件独立性属性。概率图模型所编码的结构属性能有效地控制模型的性能,因此能以可能的偏差为代价减少过模型拟合。概率图模型也推动执行贝叶斯推断,至少在树型结构的图中是这样的。下一章将讨论贝叶斯推断和关联学习比较重要的问题,当然具体的方法对计算力的需求就太大了。
第八章,近似推断与学习
本章通过