• 汇集公众科学智慧交流科学思想见解
  • 点燃科学智慧火花构建互动交流平台
科学智慧火花
科学智慧火花校园行系列活动

人工智能中的“扫地僧”--深度学习

余文乐 访问量: 【字号:

导语:传统的人工智能算法一直裹足不前,以模仿生物神经系统为基础的深度学习算法一鸣惊人,为未来人工智能带来新的希望。且看深度学习如何在人工智能领域劈波斩浪、畅通八方。

公元二零一六年三月,严冬仍然透着肃杀,街边的市民三三两两驻足攀谈,青灰色的天空偶尔掠过几只不具名的鸟,留下凄厉的长鸣。在大韩民国首都首尔的一座古色古香的小棋馆内,世界围棋排名第四的韩国职业棋手李世石额头不断冒着虚汗,此刻他想的已不是在五局制的比赛中获得胜利,而是想如何在最后扳回一局,不至于被对手以5:0彻底击败。围棋,创自于古老的中国,因其博大精深、所需智力非凡被视为最难的智力游戏,而这个让围棋界佼佼者的李世石感到黔驴技穷的对手,并不是一个有血有肉的人—他是具备深度学习的人工智能,AlphaGo。

伴随着第一台电子计算机的诞生,人工智能也应运而生,1957年美国人明斯基与麦卡锡一起发起并组织了达特茅斯会议,并首次提出“人工智能”的概念,而这场会议也成了人工智能的起点。

 

世界上第一台电子计算机—ENIAC(部分),最开始是军方用于计算炮弹运动轨迹

(图片引自https://en.wikipedia.org/wiki/ENIAC)

从斯皮尔伯格的《人工智能》到詹姆斯.卡梅隆的《终结者》,人们对于高智力机器人的幻想从未停歇。然而,现实与想象相差甚远,传统的人工智能算法想要实现真正意义上的机器智能难上加难。而AlphaGo的表现让人类看到了新的希望。

 

无所不能的机器人--《终结者》

(图片引自https://en.wikipedia.org/wiki/terminator)

从专业术语上来说,AlphaGo的做法是使用了蒙特卡洛树搜索与两个深度神经网络相结合的方法(蒙特卡洛树搜索?深度神经网络?等等这都是什么鬼,可不可以说人话?)。蒙特卡洛树搜索简单来说,就是AlphaGo在对弈的时候,会预先模拟随机在棋盘上下棋,快速下满棋盘,怎样得最高分就怎样走,就像人类的大脑一样自发学习进行直觉训练,以提高下棋实力。前者是一种比较传统的算法,而真正让AlphaGo完败人类的是深度神经网络,也叫深度学习

神经系统

简单的说人工神经网络是模拟人类中枢神经系统,在人工神经网络中,简单的人工节点,称作神经元(neurons),连接在一起形成一个类似生物神经网络的网状结构。

 

神经元细胞结构

神经元大致可以分为树突、突触、细胞体和轴突。树突为神经元的输入通道,其功能是将其他神经元的动作电位传递至细胞体。而人工神经网络,正是通过构建不同层次的输入节点来模拟神经系统处理信息的机制。

通常来说,一个人工神经元网络是由一个多层神经元结构组成,每一层神经元拥有输入和输出,每一层都由若干个网络神经元组成。在数学模型中每个突触有一个加权数值,我们称做权重,那么要计算第i层上的某个神经元所得到的势能等于每一个权重乘以第i-1层上对应的神经元的输出,然后全体求和得到了第i层上的某个神经元所得到的势能,然后势能数值通过该神经元上的激活函数常是∑函数(Sigmoid function)以控制输出大小,因为其可微分且连续,方便差量规则处理。通过数学模型,科学家们尽可能的模拟生物神经元系统在处理问题时的方式,然而这种模拟与真实情况仍然相差甚远。

一个典型的多层人工神经网络,每一层都相当于大脑的多个神经元

(图片引自https://en.wikipedia.org/wiki/artificial_neural_network)

最值得玩味的是,人工神经网络的输入和输出虽然都是可知的,然而内部各层之间的变化却并不清楚,这就像生产玩具的一个黑匣子,你往里面扔进一点东西,过不了多久则会抛出一只鸭子、一只小熊或者是一个小黄人,这取决于你扔了什么东西,而奇怪的是人们并不知到玩具原料如何变成毛绒玩具的。

正是基于深度学习的黑匣子模式,人们并不需要关心其内部各个层次的实际运行模式,只要构建一定的模型,并通过大量的测试数据,不断修正结果,深度学习可以在生物医学、金融货币、天文观测等各个领域大显身手。大致归为三类:

1.图像识别

物体检测和图像分类是图像识别的两个核心问题。从2012 年的ImageNet 竞赛开始,深度学习在图像识别领域发挥出巨大威力,在通用图像分类、图像检测、光学字符识别、人脸识别等领域,最好的系统都是基于深度学习的。在2015 年基于深度学习技术的图像识别率错误率已经超过了人类,2016 年最新的ImageNet 识别错误率已经达到2.991%。

 

深度学习用于人脸识别

2018年春运火车站首次使用“人证合一”刷脸系统

2.语音识别

长久以来,人与机器交谈一直是人机交互领域内的一个梦想,而语音识别是其基本技术。2012年11 月,微软在中国天津的一次活动上公开演示了一个全自动的同声传译系统,讲演者用英文演讲,后台的计算机一气呵成自动完成语音识别、英中机器翻译和中文语音合成,效果非常流畅,其后台支撑的关键技术就是深度学习。

 

深度学习与语音识别

3.自然语言处理

自然语言处理(natural language processing, NLP)也是深度学习的一个重要应用领域,人工神经网络用于词性标注、分块、命名实体识别、语义角色标注等4 个典型NLP 问题。此外,基于深度学习模型的特征学习还在语义消歧、情感分析等自然语言处理任务中均超越了当时最优系统,取得优异表现。

在21世纪这个大数据兴起的时代,纷繁复杂的人工智能分析难题这样的各路武林高手不断挑战着人类,深度学习以其貌不扬、韬光养晦,宛若金庸老先生笔下的“扫地僧”一样,必将帮助人类赢得挑战、开创出人类新的人工智能时代。

 

人工智能的“扫地僧”--深度学习

参考文献:

https://wikipedia.org/wiki/AlphaGo

https://wikipedia.org/wiki/artificial_nerual_network

Yang J, Yu K, Gong Y, et al. Linear spatial pyramid matching using sparse codingfor image classification? [J]. 2009: 1794-1801.

Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neuralnetworks. [J]. Science, 2006, 313 (5786): 504.

Lecun Y, Boser B, Denker J S, et al. Backpropagation applied to handwritten zipcode recognition [J]. Neural Computation, 2014, 1 (4):541-551.

Bengio Y, Vincent P, Janvin C. A neural probabilistic language model [J]. Journalof Machine Learning Research, 2003, 3 (6): 1137-1155.

Collobert R, Weston J, Karlen M, et al. Natural Language Processing (Almost)fromScratch [J]. Journal of Machine Learning Research, 2011, 12(1): 2493-2537.