• 汇集公众科学智慧交流科学思想见解
  • 点燃科学智慧火花构建互动交流平台
科学智慧火花
发表评论  0                

关于中文语言研究与发展的一个设想

投稿时间:2017-07-25 23:46 投稿人:伊莉雅 【字号: 访问量:

请看下面这两句话:

1、“喂!这个天真热!外面多少度啦现在——”

2、“当前时间的室外温度是多少摄氏度?”

问上再多的人,只要他们是汉语使用者,都会知道这两句话根本上是在问同样一个问题。只不过这两句话所包含的可被理解的语境是很不一样的。   前者是我在日常中所摘取的一句对话,后者是用标准书面汉语写成的同义问句。

与之相似的例子无时无刻不出现在我们的语言使用里。 我们日常的语言并不是最简练最精确的。其中包含了大量的由于习惯而无意中使用的俗语。这些俗语中有不少并不具有叙述意义,或者说,它们除了表达使用者的心理状态以外并没有什么用处。 这并非指它们在可视化文本里也是一样的冗余,相反,一些俗语或语气构式在可视化文本里有着相当重要的值项地位。然而我们必须认识到,在以叙述事实或者达成使役目的为需求的日常用语里,这些符号单元都是多余的。

与之对应的,在生物学并不能马上给予我们验证的这个时代,我做出一个猜想:人脑在理解包含使役目的或者单一事实叙述语言的时候,具有一个筛选机制,即能够无视话语中的语气构式,仅仅挑选出作为有逻辑含义、明确目的的语言或符号单元来形成印象、获取心理反应。

如是,则我们或许可以从中获取一个启发:人工智能的语言系统是否可以使用相同的原理呢?

我的设想是,先通过一定量的语言实验(样本总量最好高于50000,抽取范围应该包括全体汉语使用者),基本上确定不同构式在汉语的不同语境下(可以先集中于使役语境和叙事语境)具有的不同作用,然后通过数学的方式,依照实验统计的结果,为汉语的各个语法现象、构式在不同语境下的实际效用定下一个数学的值。根据这个庞大的值群,进行分类和筛选,将那些在特定语境下值项低的冗余成分划归到人工智能的理解构架之外,只在人工智能的语言理解库中留下那些高值的语言成分。  这样就可以避免人工智能在发展到与人类对话是会产生的理解歧义或者命令识别错误。

我认为,此举可以使我国的人工智能在向人性化(更加像人)、智能化的方向上迈出巨大的一步。这个工程甚至不仅仅有利于人工智能的发展,整个中文文化体系都将产生巨大的变革。人们将对于我们使用的语言所具有的实际理解效果有更清晰更精确的认识,从而改良我们的语言系统,使中文这种独特的符号系统更趋于理想化——使语言成为人的工具,而不是使人受限于语言。我们可以在浩如烟海的词汇与语言构式里发现想要表达我们意思的最优选择,并且以更合理的方式组合它们,传播它们,来达到目的。举个例子,如果想要将“优生优育有利于国家也有利于个人”这个意思以广告的形式传达出来,可以使用的语言组合方式和词汇是非常非常多的,然而如果我们能在词库里选择好值项最高的几种排列组合,那么相信一定会收获更好地社会效果。  广告符号学和语言符号学很早就已经着眼于此,国家政府部门也一定关注并且使用过类似的方法,但是我想,在这个大数据的时代,以这种数学或者统筹逻辑学的角度来使用语言,比起传统的形式会更加有益。

语言是人的基础,是社会的基础,语言的变革带来社会的变革。语言向着好的方向改革,社会也必将向着理想的方向进化。中文作为语言史上少有传承的表意语言体系,具有许多优秀特性,以及本身在传统音位学上具有的优势地位(音素“r”是语言语音发展的最高级阶段),是世界语言中潜力最无限的。