作者简介
留德华叫兽:社区创始人,知乎头条大V(18w+粉丝),美国克莱姆森大学数学硕士(运筹学方向)、Ph.D.candidate,欧盟玛丽居里学者,德国海德堡大学数学博士(离散优化、图像处理方向)。读博期间前往意大利博洛尼亚大学、IBM实习半年,巴黎综合理工访问一季。现任德国某汽车集团无人驾驶部门计算机视觉、大数据研发工程师。
编者按
本文于年4月首发于我的
运筹OR帷幄知乎专栏,并收录于知乎日报文章:『AI领域的名词好难懂,这篇文章可以让你全面了解』。当年创作此文花了我近10小时,或许很多内容现在看来显得有些“稚嫩”和“过时”,但决定予以保留绝大部分内容,也算是我对读博那段青春的追忆吧:)本文包含4个带图实例,目的是从宏观上剖析和理解这三个术语,适合刚入门人工智能(缩写AI)、数据科学、机器学习(缩写人数机)的爱好者,完整阅读可能需要20分钟。
由于我的研究领域仅限于机器学习和计算机视觉,浅谈其他领域的时候还劳驾该领域的大牛拍砖。
本文提纲:
1,人数机的概念
2,AI的应用领域
3,AI的解法-机器学习
4,机器学习底层的模型-运筹、统计
5,AI的算法
6,强AIvs弱AI
7,AI学术界、工业界的全球排名
前言:学科交叉乃大势所趋,新兴学科应市场需求孕育而生。人数机,便产生在这样的时代背景下。什么,你所在的学校至今还没开设相关专业?不必惊慌,老牌资本主义国家德国同样如此。但是,学好微积分、线代、优化、统计、编程,你和人数机可能只是俩三堂专业课的距离。本文旨在从宏观的视角剖析人数机,具体到某个学科或问题,请参见文中给出的链接。机器学习、深度学习、增强学习,这些“学习”都是什么*?第3节中的回答或许会让你大跌眼镜。
书归正传,我们一起逐点击破人数机这个大泡泡,力求以最通俗易懂的语言还原他们高大上外表下弱小的真面目(数学模型+算法)。
首先我把最近火起来的,关于人数机最热门的几个术语都列出来,因为不知道它们的话,你可能已经OUT了。
人工智能、数据科学、大数据、机器学习、神经网络、深度学习、计算机视觉、自然语言处理、增强学习、(无)监督学习、数据挖掘、文本挖掘、模式识别、虚拟现实、增强现实、GPU计算、并行计算、物联网、工业4.0、智能供应链、智能xx、商业智能、xx智能、图像处理、自动驾驶、统计推断、(凸)优化、K-means算法、Ford-Fulkerson算法等等(欢迎评论区补充“火”的术语)。
下文我尝试把这些术语按照概念、应用、模型、方法、算法来进行分类。
01
—
概念--人工智能、数据科学、大数据
注:ArtificialIntelligence、DataScience、BigData
这三个术语最大,放在第一个说--他们属于概念。
简单地说,计算机能像人一样思考并自动处理任务,就可以称为人工智能,即教计算机完成人想完成的复杂的或具有高度重复性的任务。(这里需要注意计算机能理解的只是数据,包括向量和矩阵)从这个概念出发,那么计算机从发明至今,可以说就顶着“人工智能”的帽子了。
比如我们学习任何一门计算语言的循环语句,就很好地服务于这个宗旨。你写一个fori=1..,就等于让计算机给你重复做了遍活。还嫌不够多?把改成1个亿吧。让(“教”)电脑给你干活,这就是人工智能。
当然最近几年因为深度学习的兴起,人工智能的概念也深入人心,因为深度学习使得计算机可以做更为“智能”的事情了,例如:计算机视觉、自然语言处理、语音处理等等。
由于人工智能“教”计算机处理的,通常都是很大的数据。例如图像处理,对于计算机来说,一张0*0的图片在它看来只是万个像素(灰度图是万个数字,RGB图是万*3的一个向量)。因此数据科学、大数据也天然地和人工智能“绑定”在了一起,它们和人工智能一样,是被炒起来的“术语”。
而理解上面三段话,你就拥有了和小白吹牛的资本。这些行业到底有多热,看看薪资就能略知一二。
再举个比循环语句稍稍复杂点的例子:预测(Forecasting、Prediction)。
给你一堆点(x_i,y_i),人眼一看,根据数据以往的趋势,下一个点x_n的y坐标--y_n应该出现在箭头所指的地方。但是如果有0堆类似数据等你预测呢?你需要0个人来描这个点么?NO,你只需要教会计算机如何根据x_n预测出y_n的值。很简单,学过统计的应该都知道线性回归(LinearRegression),用最小二乘法根据以往的数据(x_i,y_i)算出线性系数b_0和b_1,那么电脑就可以通过预测函数y=b_0+b_1*x,来预测后面所有的y值。当然有进阶版的分段线性回归(piecewiselinearfitting),欢迎听下回分解。
02
—
应用--模式识别、计算机视觉、自然语言处理、数据挖掘、物联网、商业智能、自动驾驶、云计算、虚拟增强现实等
注:PatternRecognition、ComputerVision、NaturalLanguageProcessing、DataMining、IntenetofThings、BusinessInteligence、AutonomousDriving、CloudComputing、VirtualAugmentedReality
这些都属于人工智能和大数据的应用场景。
模式识别:把一堆杂乱无章的数据或像素(图像)里深藏的“模式”或规则用计算机自动识别出来。
计算机视觉:“教”计算机像人一样理解图像或视频,并作出解释(例如分割、追踪、分类等)。
自然语言处理-语音识别:同样的,计算机看待人说的话只是一段段音频信号(signal),或者更底层些,只是一个x坐标为时间t的二维数据。如何把电信号翻译成文字(text),需要人来“教”它。
数据挖掘:从一大堆数据里挖掘出你想要的有用的信息。怎么样,是不是和模式识别有点异曲同工之妙?不过其主要数据对象是数据库(Database),类似的还有文本挖掘(textmining)。
物联网:把所有东西(例如家电)都联网,并实时保持数据的连通,然后计算机处理这些数据。例如根据主人的生活习性自动开关暖气。
商业智能:人工智能应用在商业大数据领域。例如银行欺诈性交易的监测。
自动驾驶:顾名思义,内置在汽车甚至设置在云端的计算机自动给你开车。利用的是计算机处理汽车上的摄像头实时产生的图片信息,以及雷达等其他传感器收集的信号。
云计算:把计算任务传送到“云端”,得出结果后再传送回来。云端可能是一个大的计算机集群(Cluster),难点在于如何协同CPU和GPU,以及传输的速度和安全性。
虚拟、增强现实(VR、AR):VR眼镜应该都体验过吧?未来的趋势,3D电影演唱会等,足不出户体验现场感。PokemonGo是AR最好的例子,使虚拟和现实混合在一起。俩者的核心技术都在计算机视觉里,包括校准、3D重建、识别、追踪等等。
再举个例子:模式识别(PatternRecognition)里的图像分割(ImageSegmentation)。给你一张图片,你自然知道描出图里所有物体的轮廓,把该图分割成了几块,该图的“模式”就被识别出来了。但是给你,0张图呢?你还有耐心一张张用手描轮廓?这时候你需要教计算机如何画这个轮廓,并且不仅仅限于几张图,这个模型或算法必须适用于绝大多数的图片。这就是模式识别和图像分割。
通过以上九个术语的翻译,相信妈妈再也不用担心我被“概念”的炒作蒙蔽双眼了。
03
—
方法--机器学习(MachineLearning)
前面讨论了概念和应用,那么用什么方法来实现2中的应用呢?机器学习便是最有力的方法之一。
把机器学习单独放在方法里,是为了体现其重要性。虽然它是一门建立在统计和优化上的新兴学科,但是在人工智能、数据科学等领域,它绝对是核心课程中的核心。
机器学习,顾名思义,教机器如何“学习”,或让机器自己“学习”。因此从字面上看就天然的属于人工智能范畴。“学习”这个看似高深的术语,在1线性回归的例子里,仅仅指求解(学习)b0,b1这俩个系数。任何其他炒得火热的“xx学习”,也只是求解一些参数-说得都很好听,仅此而已。
对于统计和运筹学这俩门基础学科来说,机器学习又是应用(见下面四类问题),因为它大量地用到了统计的模型如马尔可夫随机场(MarkovRandomField--MRF),和其他学科的模型,如偏微分方程(变分法等),最后通常转化成一个能量函数最小化的优化问题。
机器学习的核心在于建模和算法,学习得到的参数只是一个结果(见5)。
机器学习里最重要的四类问题(按学习的结果分类):
预测(Prediction)--可以用如回归(Regression)等模型。
聚类(Clustering)--如K-means方法。
分类(Classification)--如支持向量机法(SupportVectorMachine,SVM)。
降维(Dimensionalreduction)--如主成份分析法(Principal