• 汇集公众科学智慧交流科学思想见解
  • 点燃科学智慧火花构建互动交流平台
科学智慧火花
发表评论  0                

商榷searler的中文屋实验:与NLP前辈李维讨论机器理解问题

投稿时间:2016-04-06 10:50 投稿人:黄培红 【字号: 访问量:

有知名博主发出感慨说:说到“机器理解”,这个词误导了多少人。并说,成语里面无论有多少个故事,隐含的意义,不同的理解,这统统不在语义计算(所谓机器 “理解”)的范畴内。这些都是语义表达(semantic representation)的问题,与机器理解没有一毛钱的关系。(QUOTE:重温AI历史上的思维实验:老外不会中文,正如机器没有理解from http://blog.sciencenet.cn/blog-362400-967894.html)  本人想了一下,这个”误导“的原因是什么呢?这是因为理解的本意与目前学术界主流的理解并不一样造成的。

机器理解的理解与人类理解的理解,字面相同,意义同样,但目前主流的机器理解,在图像处理领域仅仅是识别,或者在自然语言处理领域,词句法分析就是机器理解。应该说,主流的机器理解仅仅讲对了理解的一部分,以至于现在出现了混乱,出现了这样一种情况:主流认为,句法分析就是机器理解,但机器做到了句法分析时,人们不禁发出疑问,难道句法分析了就是理解吗?归结原因,是人们对什么是理解的问题还没有搞清楚。同样,主流认为,图像匹配了就是理解,也仅仅讲对了一部分,因为当机器做到了匹配出图像时,人们并不认为机器理解了这个图像。原因同样是对什么是理解认识不清。

 历史上有个著名的中文屋实验,用以批判强人工智能问题。QUOTE:“ Searle创造了“中文房间”思想实验来反驳电脑和其他人工智能能够真正思考的观点。房间里的人不会说中文;他不能够用中文思考。但因为他拥有某些特定的工具,他甚至可以让以中文为母语的人以为他能流利的说中文。根据Searle,电脑就是这样工作的。它们无法真正的理解接收到的信息,但它们可以运行一个程序,处理信息,然后给出一个智能的印象。”(from http://baike.baidu.com/view/911657.htm

 但这个中文屋问题在今天就是个值得商榷的问题了。我们可以假想一下,如果屋内的人知道了(或者使用特定工具知道)这个中文是什么及为什么时,这种对应关系就不是机械的一一对应了,就是一种对中文的理解,当然当时的条件限制,如果放在现在,他(Searle)知道了理解规律,掌握了理解规律,懂得什么是理解的时候,他一定不会这么认为,认为屋内的人没有理解中文了。老外不会中文,但当他知道特定中文是什么及为什么时,他也就懂得了中文,而不仅仅是一种机械的对应关系。比如中文“香蕉”,当他知道它是什么(就是对应的“banana")及为什么(知道它为什么是”banana")时,他就理解了“香蕉”这个中文。正如屋内的人理解中文,机器也一样,根据理解效应,当机器知道中文是什么及为什么时,它也就理解了中文。对于中文屋问题,屋内的人是根据理解效应翻译出中文时,就不能得出它不懂中文的结论,同样,机器根据理解效应进行信息处理时,也同样不能得出该机器不能理解中文的结论。有关“香蕉”的全面理解,可以参考对中文“蓝”的理解(from http://idea.cas.cn/viewdoc.action?docid=138)
  
        说机器永远不会“理解”任何语言,机器只会做语义“计算”。这种认识是不对的,这是因为目前主流还没有掌握理解效应的规律造成的。当人类知道了理解效应规律以后,机器就可以理解语言,而且还会对语义进行深度理解(deep understanding) ,做类似人类的理解计算。

  所以,“成语里面无论有多少个故事,隐含的意义,不同的理解,这些都是语义表达(semantic representation)的问题,与机器理解没有一毛钱的关系”,这是不对的,机器理解与语义表达(semantic representation)的问题具有紧密的关系,因为当知道成语是什么及为什么时,认知系统理解了该成语。机器理解与语义表达紧密相关。解决了理解问题,语义表达才能更加准确,更加合理,才更有方向。

  我很认同“理解是本质,表达只是形式”这句话,但说“记忆是强盗,词典是绑架”,就值得商榷了。记忆是强盗吗,词典就是绑架吗?不一定的,正确的记忆才有价值,同样正确的词典才有意义,否则不会引起理解效应的,不正确的记忆或词典最终都可能引起疑惑,破坏理解效应,无论是人类或是机器。如果硬说词典是绑架,那也要绑架的合情合理。

 至于说人工智能(Artificial Intelligencr)没有也无需 “智能”,自然语言理解(Natural Language Understanding)也没有“理解”,一切的智能和理解都是比喻,这些都只是在目前学术界的主流认识,目前学术界的主流并没有解决“理解”是什么的问题,它们所谓的自然语言理解,往往是句法分析或词法分析,或基于概念的语义计算,是有局限性的,以至于现在它们碰到的这样一个棘手的问题,当它们用机器把某些句法分析正确时,人们往往又不承认它就是理解了这些句子。究其深层次原因,因为它们使用理解这个字眼的时候,本来是人类理解的这个“理解”,但借用“理解”进行自然语言处理研究过程中,又给理解无意中下定义(它们并没有也没能力给理解下个确切的定义)的时候,又只是诸如词句法分析这样的词义。所以导致了这么一个尴尬的状态。“智能”也一样,人们往往把机器能做人类能做的事情就叫智能,但这些只是表象,只是人类智能的一部分,没有掌握“智能”的规律,或者说不知道“智能”的本质,所以当机器下棋超过人类时,人们往往又不承认该机器有智能。(QUOTE:基于语义本源介入的智能界定研究 from http://www.cqvip.com/QK/89810X/201003/688739072201003007.html)

 应该说,机器理解、电脑自主思考、获得人类的情感等等,这些并不是人工智能的科幻神话,更不是只有茶余饭后博取一笑的价值。“一切的智能和理解都是比喻”,只是对目前学术界的主流的概括。目前的学术界主流如果能积极接纳对“理解”是什么与“智能”是什么所进行的研究,无疑将把主流的学术水平提高到一个新的层次