关于自然语言理解的理解

作 者:

作者简介:
周锡令 北京信息工程学院,邮编:100101

原文出处:
语言文字应用

内容提要:

人们在写文章、特别是在说话的时候,往往不大尊重教科书上的语法规则,而只求对双方共有的知识给出某种提示。此时,对方在理解时的过程颇类似于“猜谜”。因此:在开发与汉语理解有关的软件时,我们必须分别对待说话人的两种不同说话方式:(1)对于对方已有知识的某种提示。(2)向对方传递知识(讲故事)。只有在后一种方式中,语法才是重要的。这又意味着,语言学家在制订描述性语法系统的时候,没有必要去企图囊括生活中出现的全部语言现象。


期刊代号:H1
分类名称:语言文字学
复印期号:1998 年 01 期

关 键 词:

字号:

      自从去年读了朱德熙教授写的小册子《语法答问》,这才知道我对汉语语法一窍不通。不管是讲了几十年的母语却依然对自己的母语语法茫然而觉得惭愧,还是虽然不懂语法却并不妨碍自己讲汉语甚至写文章而感到骄傲,对我们普通人来说,我们是怎样学会说话和听懂别人讲话的,依然是一个很大的谜。

      语言学家和计算语言学家对这个问题的研究已很精深。和他们相比,我们只能靠直觉来捉摸这个问题。借用《君王论》的作者在解释他身为一个普通臣民却来写“应该怎样当皇帝”的书并非僭越时所用的话:“风景画家如想描绘山岭与高地,他们就得置身于卑谷。”卑谷中普通人的直觉有时说不定也能触发专家们的一两点灵感。这就是写这篇短文的目的。

      1.人们相互交流时使用的“多层信息结构”

      人们在生活中不断积累对周围客观世界以及对自己内心世界的认识的同时,也力图把这些认识反映到符号系统中。包括自然语言在内的符号系统的威力与影响是如此强大和无所不在,以致于人们有时候会陷于“执迷于文字语言,反而打消自家性灵”的错误。按禅师们的说法,就是“落入言筌”。(“言筌”者,语言的笼子也。)反映在自然语言理解的研究方面,我们是不是有时也过分强调了语言在人与人之间沟通过程中的地位,忘记了交流双方的共同的知识基础也十分重要,甚至是更本质的一种因素。

      支持以上猜想的第一个证据是:除了人类以外,动物界中不存在像人类自然语言这样复杂的符号系统,可是动物与动物之间显然是可以交流沟通的。这就说明,语言在生物体交流沟通中起的是“锦上添花”的作用。

      证据之二是:外国专家来华作报告时,英语语言水平很高的外语专业毕业生的口译效果往往不如外语水平虽低但对专业十分熟悉的专业技术人员。

      人们交流(说话,写文章)的目的是什么?答曰:是为了传递信息。那么传递信息的目的又是什么?按信息论的观点是为了减少“不确定性”。举例来说,一位家住北京的朋友要告诉我他的电话号码:在他说话以前,从00000000到99999999范围内这近一亿个号码对我来说都有可能是他的电话号码。他每说出一位数字,这一不确定性便减少一个数量级。等到八位数字都说完,不确定性就消失了。

      信息接受者在加工对方发出的的字句流以期减少信息的不确定性时,实际上并不是完全依赖字句流,而是往往同时考察了以语言为中心的“多层信息结构”。这种“多层信息结构”可以大致表述如下:

      层次 语音文章

      1

      当前语句中的语音流 当前语句中的文字流

      2

      上文(以前说过的话) 上下文

      3

      腔调,重音,音隔 文章格式,插图

      4

      口形,表情,姿态,手势 文章体例(敬体),用词色彩

      5

      情景(对话者周围环境)发表文章的书刊,日期

      6

      社会历史背景社会历史背景

      一些典型的例子如:

      (1)当前语句中如果使用了代词,接受者理解时就要用到层次2中的信息。

      (2)为了分辨对方说的是“<乒乓球>拍卖完了”还是“<乒乓球拍>卖完了”,接受者进行理解时就要用到层次3中的信息。

      (3)在阅读英文教科书中“The boy saw a girl with a telescope.”这句英文时,如果文字旁边有插图,就可以判断到底是男孩还是女孩拿着望远镜,也要用到层次3中的信息。

      (4)听到说“你真行!”,为了判断对方到底是表扬还是挖苦,就要用到层次4中的信息。

      (5)当你在街上远远听到有人嚷:“一块一块,一块一块”时,你多半弄不懂他的意思。待你走到他跟前,看见说话人前面的小桌上放着切开的西瓜,你马上就明白他的意思是:“一块(钱买)一块(西瓜)”。括号中被他省略的字眼完全由层次5中的信息补足了。

      (6)听到有人说:“鸡不吃了”这四个字时,为了判断到底是鸡不吃东西还是人不吃鸡,就要用到层次5(周围环境是养鸡场还是餐馆)中的信息。

      (7)如果上述那位北京的朋友在告诉电话号码时只说了后七位数,从理论上说,可能作为他的真正电话号码的数字仍有十种。可是由于我知道北京电话升到八位的时间还不久,而且一般家用电话升位的规则是前面加6。就这样,我利用层次6中的信息消除了剩下的不确定性。

      (8)在大街上看到“电脑培训”字样,为了知道这指的是“计算机操作使用训练”而不是“计算机辅助教学”,就要对当前社会上“会使用计算机的人好找工作”的情况有所了解。(层次6的知识)

      2.共同的知识是自然语言理解的重要基础

      设想如下情景:一个幼儿玩弄烛火被烫伤了手指,他大约会举着手指说“痛”“火”这两个字。这两个字不成句,两个字之间似乎也没有什么语法关系,但是对于他的父母来说已经足够了,一切都已了然。汉语中十分古怪的双字词“救火”的来源恐怕也是如此:首先是呼吁抢救生命财产,其次是要说明原因:起火了。“救”和“火”原本应该是彼此分离的两个字,两者之间并没有把这两个字连读时的语序所指示的那种语法关系。如果真要按一般的语法关系去理解,那就不是要去扑灭火,而是要添柴泼油免得火熄灭了。

相关文章: