当前自然语言处理发展的几个特点

作 者:

作者简介:
冯志伟,教育部语言文字应用研究所研究员,中国传媒大学博士生导师,韩国科学技术院电子工程与计算机科学系教授,《中国语文》、《语言科学》、《语言文字应用》编委。(北京 100010)

原文出处:
暨南大学华文学院学报

内容提要:

本文分析了当前自然语言处理发展的4个特点:基于句法—语义规则的理性主义方法受到质疑,随着语料库建设和语抖库语言学的崛起,大规模真实文本的处理成为自然语言处理的主要战略目标;自然语言处理中越来越多地使用机器自动学习的方法来获取语言知识;统计数学方法越来越受到重视;自然语言处理中越来越重视词汇的作用,出现了强烈的“词汇主义”的倾向。


期刊代号:H1
分类名称:语言文字学
复印期号:2006 年 12 期

字号:

      21世纪以来,由于国际互联网的普及,自然语言的计算机处理成为从互联网上获取知识的重要手段。生活在信息网络时代的现代人,几乎都要与互联网打交道,都要或多或少地使用自然语言处理的研究成果来帮助他们获取或挖掘在广阔无边的互联网上的各种知识和信息。因此,世界各国都非常重视自然语言处理的研究,投入了大量的人力、物力和财力。

      我认为,当前国外自然语言处理研究有4个显著的特点:

      第一,基于句法—语义规则的理性主义方法受到质疑,随着语料库建设和语料库语言学的崛起,大规模真实文本的处理成为自然语言处理的主要战略目标。

      在过去的40多年中,从事自然语言处理系统开发的绝大多数学者,基本上都采用基于规则的理性主义方法,这种方法的哲学基础是逻辑实证主义,他们认为,智能的基本单位是符号,认知过程就是在符号的表征下进行符号运算,因此,思维就是符号运算。

      著名语言学家J.A.Fodor在“Representations”一书(1980)[1]中说:“只要我们认为心理过程是计算过程(因此是由表征式定义的形式操作),那么,除了将心灵看作别的之外,还自然会把它看作一种计算机。也就是说,我们会认为,假设的计算过程包含哪些符号操作,心灵也就进行哪些符号操作。因此,我们可以大致上认为,心理操作跟图灵机的操作十分类似。”Fodor的这种说法代表了自然语言处理中的基于规则(符号操作)的理性主义观点。

      这样的观点受到了学者们的批评。J.R.Searle在他的论文“Minds,Brains and Programmes”(1980)[2]中,提出了所谓“中文屋子”的质疑。他提出,假设有一个懂得英文但是不懂中文的人被关在一个屋子中,在他面前是一组用英文写的指令,说明英文符号和中文符号之间的对应和操作关系。这个人要回答用中文书写的几个问题,为此,他首先要根据指令规则来操作问题中出现的中文符号,理解问题的含义,然后再使用指令规则把他的答案用中文一个一个地写出来。比如,对于中文书写的问题Q1用中文写出答案A1,对于中文书写的问题Q2用中文写出答案A2,如此等等。这显然是非常困难的几乎是不能实现的事情,而且,这个人即使能够这样做,也不能证明他懂得中文,只能说明他善于根据规则做机械的操作而已。Searle的批评使基于规则的理性主义的观点受到了普遍的怀疑。

      理性主义方法的另一个弱点是在实践方面的。自然语言处理的理性主义者把自己的目的局限于某个十分狭窄的专业领域之中,他们采用的主流技术是基于规则的句法—语义分析,尽管这些应用系统在某些受限的“子语言”(sub-language)中也曾经获得一定程度的成功,但是,要想进一步扩大这些系统的覆盖面,用它们来处理大规模的真实文本,仍然有很大的困难。因为从自然语言系统所需要装备的语言知识来看,其数量之浩大和颗粒度之精细,都是以往的任何系统所远远不及的。而且,随着系统拥有的知识在数量上和程度上发生的巨大变化,系统在如何获取、表示和管理知识等基本问题上,不得不另辟蹊径。这样,就提出了大规模真实文本的自然语言处理问题。1990年8月在芬兰赫尔辛基举行的第13届国际计算语言学会议(即COLING90)为会前讲座确定的主题是:“处理大规模真实文本的理论、方法和工具”,这说明,实现大规模真实文本的处理将是自然语言处理在今后一个相当长的时期内的战略目标。为了实现战略目标的转移,需要在理论、方法和工具等方面实行重大的革新。1992年6月在加拿大蒙特利尔举行的第四届机器翻译的理论与方法国际会议(即TMI-92)上,宣布会议的主题是“机器翻译中的经验主义和理性主义的方法”。所谓“理性主义”,就是指以生成语言学为基础的方法;所谓“经验主义”,就是指以大规模语料库的分析为基础的方法。从中可以看出当前自然语言处理关注的焦点。当前语料库的建设和语料库语言学的崛起,正是自然语言处理战略目标转移的一个重要标志。随着人们对大规模真实文本处理的日益关注,越来越多的学者认识到,基于语料库的分析方法(即经验主义的方法)至少是对基于规则的分析方法(即理性主义的方法)的一个重要补充。因为从“大规模”和“真实”这两个因素来考察,语料库才是最理想的语言知识资源。

      这种大规模真实的语料库还为语言研究的现代化提供了强有力手段。我在20多年前曾经测试过汉字的熵(即汉字中所包含的信息量),这是中文信息处理的一项基础性研究工作。为了计算汉字的熵,首先需要统计汉字在文本中的出现频度,由于70年代我们还没有机器可读的汉语语料库,哪怕小规模的汉语语料库也没有,我只得根据书面文本进行手工查频,用了将近10年的时间,对数百万字的现代汉语文本(占70%)和古代汉语文本(占30%)进行手工查频,从小到大地逐步扩大统计的规模,建立了6个不同容量的汉字频度表,最后根据这些不同的汉字频度表,逐步地扩大汉字的容量,终于计算出了汉字的熵。这是一件极为艰辛而烦琐的工作。如今我们有了机器可读的汉语语料库,完全用不着进行手工查频,频度的统计可以在计算机上进行,只要非常简单的程序就可以轻而易举地从语料库中统计出汉字的频度并进一步计算出汉字的熵。语言研究工作的效率成百倍、成千倍地提高了!尽管学问是从苦根上长出来的甜果,但是,现代化的手段不仅可以帮助我们少吃很多的苦,而且也还能把学问做得更好。手工查频犹如赶着老牛破车在崎岖的山路上跋涉,使用语料库犹如乘宇宙飞船在广阔的太空中翱翔。这是我从前根本不敢想象的。大规模机器可读语料库的出现和使用,把语言学家从艰苦繁重的手工劳动中解放出来,使语言学家可以集中精力来研究那些更加重要的问题,这对于促进语言学研究的现代化具有不可估量的作用。

      第二,自然语言处理中越来越多地使用机器自动学习的方法来获取语言知识。

      传统语言学基本上是通过语言学家归纳总结语言现象的手工方法来获取语言知识的,由于人的记忆能力有限,任何语言学家,哪怕是语言学界的权威泰斗,都不可能记忆和处理浩如烟海的全部的语言数据。因此,使用传统的手工方法来获取语言知识,犹如以管窥豹,以蠡测海,这种获取语言知识的方法不仅效率极低,而且带有很大的主观性。传统语言学中啧啧称道的所谓“例不过十不立,反例不过十不破”的朴学精神,貌似严格,实际上,在浩如烟海的语言数据中,以10个正例或10个反例就轻而易举地来决定语言规则的取舍,难道就能够万无一失地保证这些规则是可靠的吗?这是大大值得怀疑的。当前的自然语言处理研究提倡建立语料库,使用机器学习的方法,让计算机自动地从浩如烟海的语料库中获取准确的语言知识。机器词典和大规模语料库的建设,成为了当前自然语言处理的热点。这是语言学获取语言知识方式的巨大变化,作为21世纪的语言学工作者,都应该注意到这样的变化,逐渐改变获取语言知识的手段。

相关文章: