80年代以来汉语信息处理研究述评

——作为现代汉语语法研究的应用背景之一

作 者:

作者简介:
詹卫东,北京大学 通讯地址:北京大学中文系 邮编 100871

原文出处:
当代语言学

内容提要:

本文对80年代以来汉语信息处理研究进行了简要的总体评述。目的是探讨如何围绕信息处理开展现代汉语的语法研究。通过评述80年代以来信息处理领域的三大块研究工作,包括对国外理论方法的引介及结合汉语处理进行的宏观层面的一些思考、相关应用系统的研制开发、汉语知识库的建设和语法规则的发掘等,我们得到的一个初步认识是,面向信息处理的现代汉语语法研究,应在背景清晰、定位明确的前提下,大力加强对用于计算机的汉语短语结构规则的研究。


期刊代号:H1
分类名称:语言文字学
复印期号:2000 年 09 期

字号:

      一

      面向信息处理的语言研究带有交叉学科的边缘性质,在拓宽研究领域、扩大研究视野的同时,新开辟的研究空间也难免带有一定程度上的背景模糊和层次不清。本文首先对80年代以来中国大陆计算语言学界、汉语研究界分别从各自不同角度开展的有关汉语的信息处理研究做一番梳理工作,从而对研究现状及研究成果有一个清醒的全局认识。在此基础上,探讨适合信息处理的现代汉语语法研究的发展方向。限于资料和篇幅,本文基本没有涉及海外学者的相关研究。副标题是“现代汉语语法研究”而不是“现代汉语研究”,主要是因为本文不谈语音处理方面的研究。另外,本文所指的语法研究,从宽理解也包括语义内容。

      第二节简要勾画目前语言信息处理研究的宏观模式与格局。第三节把80年代以来国内汉语信息处理研究划分为三部分,并分别展开述评。第四节在述评的基础上对一些论争和理论问题作一番思考,提出汉语语法研究人员围绕信息处理开展相关研究时应关注的问题,以及应遵循的原则和标准,最后就面向信息处理的现代汉语语法研究的发展方向谈谈自己的看法。

      二

      自然语言的信息处理跟计算机的诞生几乎是同时的。来自计算机科学、语言学、数学等学科的研究人员构成了目前这一领域的主要研究力量。随着计算机应用的日益普及,其功能也从主要是数值计算发展到主要是非数值信息处理。不管是数值还是非数值信息,计算机处理信息的一般模式都可以归结为以下三部分。

      (1)处理对象(输入):有限种符号的有限长序列(M=a[,1] a[,2]…a[,n]);

      (2 )处理过程(运算):用事先编制好的程序对其进行有穷次的变换;

      (3)处理结果(输出):产生新的符号表达式(M')。

      把自然语言作为处理对象在计算机中进行处理时,上面模式中的(2)在实现策略上可以有不同的选择。 比如早期人机对话系统采用的是简单模式匹配方法;后来发展起来至今仍在广泛使用的基于规则的处理方法;以及近年来日趋流行的语料库统计方法等等。总的说来,规则方法和统计方法的并存,形成了当前自然语言处理领域理论和技术策略取向的基本格局。

      无论是哪种方法,都包括两个方面,一是关于自然语言的知识,二是表述知识的机制。我们假定有关自然语言的知识是客观的,那么知识本身对规则方法和统计方法来说应该是共同的,没有差异。这样,比较规则方法和统计方法的差异,很显然就可以归结为表述知识的机制的不同。一般而言,规则方法最常见的是以一定的形式语法系统来表述自然语言中大小成分间的组合规则;统计方法则以各种统计数据来显示语言成分间的组合可能性。不少论文在谈及这两种方法的优劣时,通常会说在实际操作上前者的知识来自专家的内省,后者则是由计算机从真实语料中统计得来;在效果上前者的知识颗粒度大,而后者的知识颗粒度小;在面对处理对象时前者的鲁棒性(robustness)差,而后者的鲁棒性强等等。我们认为这样的比较显得很直观,但却是一些似是而非的粗糙意见,并没有触及两种方法的实质。实际上,在甄别规则方法跟统计方法的异同时,真正应该回答的问题是,两种方法在组织语言知识时各自的困难和负担在哪里,对语言知识的控制方式如何,系统的总体效率和代价如何,等等。要知道哪一种方法对自然语言处理更有用时,也不应该是笼统地下结论,而应该是对不同层次和级别的自然语言处理问题分开来讨论。比如,统计方法用于自动分词和词性标注以及语音识别等领域,取得了比较好的效果,用在句法结构和语义的分析上又会怎样呢?

      规则方法和统计方法的优劣不在本文讨论的范围之内。无论是哪一种方法,最终都需要依赖可靠的语言知识驱动计算机正确地处理自然语言。从目前对自然语言知识掌握的水平来看,两种方法都还有许多研究工作要做,尚不到一争长短的时候。此外,把两种方法对立起来看仅仅是一种视角,自觉地审视二者的共性并互相补充,对研究工作可能更有启示。事实上,已有不少研究人员用统计的方法发现规则,再用得到的规则进行分析处理;或者利用统计方法在传统的上下文无关语法的规则中加入概率权值得到概率上下文无关语法的产生式规则,这些研究都显示出将二者结合起来的趋势。

      统计方法涉及到较多的数学公式,考虑到本文的主要目的在于为文科背景的研究人员进入汉语信息处理这一研究领域提供参考信息,我们下面的讨论将集中在有关汉语信息处理中跟规则方法相关的研究上。

      就规则方法而言,人要做的工作主要包括:

      (1)从自然语言中抽取可被形式化的语言知识;

      (2)以一定的形式化方法表述这些语言知识;

      (3)将这些语言知识算法化后编制成程序输入计算机。

      上述工作一般说来应该由语言学和计算机科学工作者共同完成。理想的做法是,语言学工作者主要承担的任务是从纷繁复杂的语言现象中抽取可形式化的语言知识;计算机科学工作者则通过一定的形式模型表述语言知识以及将语言知识算法化编制成程序。

      在基于规则方法的框架中,语言知识可以分为范畴和规则两部分内容。而所谓从自然语言中抽取语言知识,也就是由人来为自然语言建立有限的范畴,并以有限的规则来表述这些有限范畴之间的有限关系。80年代以来国外语言学流派纷呈,理论迭出,实际上是在语言知识的抽取中,对确立哪些范畴以及采取何种表达方式来组织规则系统各抒己见。国内计算语言学界、汉语研究界在面向信息处理开展的语法研究方面,也同样如此。下面我们基于这种认识展开具体评述。

      三

      80年代以来国内在汉语信息处理领域的主要研究大致可以分为三大块:

      (1 )引介国外理论方法并结合汉语特点探讨计算机处理汉语的理论问题;

      (2)各种跟汉语的信息处理相关的实验和应用系统的研制开发;

      (3)汉语知识库的建设及汉语语法规则的发掘。

      需要说明的是,这三大块只是就最主要的方面勾勒而已。分成三块很大程度上也是为了叙述方便,实际的研究并不见得就只有这些并一定以这样的面貌呈现。鉴于本文主要是在考察80年代以来汉语信息处理研究基本状况的基础上,探讨以信息处理为应用背景如何进行现代汉语语法研究,我们对前两块研究内容的评述相对简略,对第三块的研究工作,其中包括已经建成相当规模的知识库,以及虽然规模不大但堪称积极探索的对汉语语法规则的相关研究,评述要详细一些。

相关文章: