一 中文信息处理的必然前景 中文信息处理,就是利用计算机对汉语信息(包括书面的和口头的)进行处理。既然是凭借计算机对信息进行处理,当然应该是自动化的。例如,成篇的文章或整本的书输入计算机,对其中所需要的信息进行统计;自动分类和搜索、过滤、摘要;外文与汉语的对译;字词典自动查重、辅助编辑;自动校对;书面语和口语的互相转换;聋哑、盲人用的计算机;等等。至于词典、教科书、多媒体和语文教学等领域从中得益则不言而喻。 中文信息的自动化处理,意义之重大是无须多说的。首先是节省时间。但是这还在其次。更为重要的是,这是人们应付未来信息社会的必需手段。现在在世界范围内,信息量之大是以往任何时候所无法比拟的,以至于对任何人来说都好像是一叶扁舟飘荡在无边的大海里,无法比较全面地掌握自己所需要的信息,当然就更谈不到对这些信息按照需要进一步处理。 信息在当代是极其重要的资源,不能充分掌握它、利用它,无论是对个人还是对整个社会,都是巨大的灾难。因此,获取、处理和运用信息的手段至关重要。可以这样说,中文信息自动化处理每提高一步,给我国的科学技术(包括国家的信息化)、文化教育、经济建设、国家安全所带来的效益,将是无法用金钱的数额来计算的。反之,如果我们落后了,不管是落后于国际水平还是落后于现实需要,后果也是严重的。 二 中文信息处理技术发展现状 1.字处理与语言处理 到目前为止,中文信息处理基本上还停留在“字处理”阶段,也就是说计算机对汉语的“认知”是一个字一个字地进行。最明显的标志就是计算机键盘输入是一个字一个字地敲,一个字一个字地显示。即使应用软件准备了“联想”功能,但是其原理仍是把词(多音词)、短语当成“字”来处理的。如果我们说得“宽宏”一些,最多可以说现在是处在“字和词处理之间”阶段。 中文信息处理,只有进入到语言处理阶段,才能真正实现自动化。现在市面上有些信息产品似乎越过了“字词处理”阶段,给人以假象,使人误认为计算机对中文信息的处理已经“自动化”了。例如中文扫描仪,可以成篇成篇地把文件输入到计算机里。其实,扫描仪是把整页纸当成一个图像输进去的;输入后,经过OCR的处理,图像转化成了可以用键盘处理的文字文件,这时则仍是“字处理”。再如,现在有些语音输入产品(像IBM语音板),是基于在一定量的语料中对词汇进行统计,依据词出现的概率而研制的。其处理的基本单位也是“字词”。又如多种机器翻译产品,对汉语研究的基本思路和水平与语音输入基本上是一样的。 二十年前,我国的计算机专家和汉语汉字专家为能在计算机上显示汉字,曾经付出了极大的心血,完成了历史性的突破。自那以后,中文信息处理技术虽然在有些方面有所进步,但是至今还没有跨上“语言处理”这个台阶。我们在“字处理”阶段停留的时间太久了。 在全世界科学技术高速发展的今天,中文信息处理自动化水平的提高,将决定着信息产业发展的前景,也意味着巨大的经济利益。因此,一些技术和经济发达的国家都投入了大量资金,在其本土或在中国建立研究基地,或以低廉的价格购买中国学者的研究成果,或径直购买其劳力,来进行中文信息处理的研究。中国作为汉语的故乡,能不能成为未来中文信息处理技术发展的中坚?以汉语为母语的中国学者,能不能掌握中文信息处理的核心技术?这个问题早已尖锐地摆在我们面前。我们必须尽快地给以明确的回答。 由于机器翻译需要有关现代汉语的全部知识,而这些知识一旦为计算机所“习得”,对中文信息的处理就可以达到相当程度的自动化,因此现在无论是国内外中文信息产业还是研究信息处理的专家,都把汉/外机器翻译定为攻克的目标。 三 目前我国中文信息处理技术发展的态势 我国的有关科研单位和专家,从来没有停止过攻克中文信息处理难关的努力,在国家的几个科学攻关计划中都列有信息处理项目。这些项目都是以解决计算机对自然语言进行理解问题,也就是以开发智能型的汉语分析系统为奋斗目标。 当前这类研究基本上都是在语料——主要是词——的统计概率的基础上进行的。许多专家已经感觉到,统计概率的路已经走到尽头,必须另辟蹊径,这“蹊径”就是语义,以词义为基础,与句法规则结合,以句为突破的单位。 朝着这个目标努力,到目前为止,正在进行的众多研究项目,大体可以分为三种风格,或者说是三种思路、三个流派。 第一个流派是以传统计算语言学为基本理论,从词素分析入手,进而研究词-短语(词组)-语段-句子。 概括地说,传统计算语言学的种种理论和方法,都以语料统计为基础。但是,只靠统计概率是不能统摄复杂多变的语言现象的,因此还需要结合语言规则。为此,我国学术界从西方计算语言学的众多理论和方法中吸收了许多营养,例如短语结构语法、扩充转移网络、从属关系语法和配价语法等。(注:参看冯志伟著《应用语言学综论》,广东教育出版社,1999年,321页。) 由许嘉璐主持的国家社会科学“九五”重大项目“信息处理用现代汉语词汇研究”的立项和进展或许可以说是当前这一领域研究最集中最突出的例子。