现状和设想

——试论中文信息处理与现代汉语研究

收藏 |打印|下载word

作者：

许嘉璐

作者简介：

许嘉璐　全国人大常委会　100805

原文出处：

《中国语文》

内容提要：

期刊代号：H1

分类名称：语言文字学

复印期号：2001 年 03 期

关键词：

字号：大中小

一　中文信息处理的必然前景

中文信息处理，就是利用计算机对汉语信息（包括书面的和口头的）进行处理。既然是凭借计算机对信息进行处理，当然应该是自动化的。例如，成篇的文章或整本的书输入计算机，对其中所需要的信息进行统计；自动分类和搜索、过滤、摘要；外文与汉语的对译；字词典自动查重、辅助编辑；自动校对；书面语和口语的互相转换；聋哑、盲人用的计算机；等等。至于词典、教科书、多媒体和语文教学等领域从中得益则不言而喻。

中文信息的自动化处理，意义之重大是无须多说的。首先是节省时间。但是这还在其次。更为重要的是，这是人们应付未来信息社会的必需手段。现在在世界范围内，信息量之大是以往任何时候所无法比拟的，以至于对任何人来说都好像是一叶扁舟飘荡在无边的大海里，无法比较全面地掌握自己所需要的信息，当然就更谈不到对这些信息按照需要进一步处理。

信息在当代是极其重要的资源，不能充分掌握它、利用它，无论是对个人还是对整个社会，都是巨大的灾难。因此，获取、处理和运用信息的手段至关重要。可以这样说，中文信息自动化处理每提高一步，给我国的科学技术（包括国家的信息化）、文化教育、经济建设、国家安全所带来的效益，将是无法用金钱的数额来计算的。反之，如果我们落后了，不管是落后于国际水平还是落后于现实需要，后果也是严重的。

二　中文信息处理技术发展现状

1.字处理与语言处理

到目前为止，中文信息处理基本上还停留在“字处理”阶段，也就是说计算机对汉语的“认知”是一个字一个字地进行。最明显的标志就是计算机键盘输入是一个字一个字地敲，一个字一个字地显示。即使应用软件准备了“联想”功能，但是其原理仍是把词（多音词）、短语当成“字”来处理的。如果我们说得“宽宏”一些，最多可以说现在是处在“字和词处理之间”阶段。

中文信息处理，只有进入到语言处理阶段，才能真正实现自动化。现在市面上有些信息产品似乎越过了“字词处理”阶段，给人以假象，使人误认为计算机对中文信息的处理已经“自动化”了。例如中文扫描仪，可以成篇成篇地把文件输入到计算机里。其实，扫描仪是把整页纸当成一个图像输进去的；输入后，经过OCR的处理，图像转化成了可以用键盘处理的文字文件，这时则仍是“字处理”。再如，现在有些语音输入产品（像IBM语音板），是基于在一定量的语料中对词汇进行统计，依据词出现的概率而研制的。其处理的基本单位也是“字词”。又如多种机器翻译产品，对汉语研究的基本思路和水平与语音输入基本上是一样的。

二十年前，我国的计算机专家和汉语汉字专家为能在计算机上显示汉字，曾经付出了极大的心血，完成了历史性的突破。自那以后，中文信息处理技术虽然在有些方面有所进步，但是至今还没有跨上“语言处理”这个台阶。我们在“字处理”阶段停留的时间太久了。

在全世界科学技术高速发展的今天，中文信息处理自动化水平的提高，将决定着信息产业发展的前景，也意味着巨大的经济利益。因此，一些技术和经济发达的国家都投入了大量资金，在其本土或在中国建立研究基地，或以低廉的价格购买中国学者的研究成果，或径直购买其劳力，来进行中文信息处理的研究。中国作为汉语的故乡，能不能成为未来中文信息处理技术发展的中坚？以汉语为母语的中国学者，能不能掌握中文信息处理的核心技术？这个问题早已尖锐地摆在我们面前。我们必须尽快地给以明确的回答。

由于机器翻译需要有关现代汉语的全部知识，而这些知识一旦为计算机所“习得”，对中文信息的处理就可以达到相当程度的自动化，因此现在无论是国内外中文信息产业还是研究信息处理的专家，都把汉/外机器翻译定为攻克的目标。

三　目前我国中文信息处理技术发展的态势

我国的有关科研单位和专家，从来没有停止过攻克中文信息处理难关的努力，在国家的几个科学攻关计划中都列有信息处理项目。这些项目都是以解决计算机对自然语言进行理解问题，也就是以开发智能型的汉语分析系统为奋斗目标。

当前这类研究基本上都是在语料——主要是词——的统计概率的基础上进行的。许多专家已经感觉到，统计概率的路已经走到尽头，必须另辟蹊径，这“蹊径”就是语义，以词义为基础，与句法规则结合，以句为突破的单位。

朝着这个目标努力，到目前为止，正在进行的众多研究项目，大体可以分为三种风格，或者说是三种思路、三个流派。

第一个流派是以传统计算语言学为基本理论，从词素分析入手，进而研究词－短语（词组）－语段－句子。

概括地说，传统计算语言学的种种理论和方法，都以语料统计为基础。但是，只靠统计概率是不能统摄复杂多变的语言现象的，因此还需要结合语言规则。为此，我国学术界从西方计算语言学的众多理论和方法中吸收了许多营养，例如短语结构语法、扩充转移网络、从属关系语法和配价语法等。（注：参看冯志伟著《应用语言学综论》，广东教育出版社，1999年，321页。）

由许嘉璐主持的国家社会科学“九五”重大项目“信息处理用现代汉语词汇研究”的立项和进展或许可以说是当前这一领域研究最集中最突出的例子。

共9条结果上一页12 3 4 5 下一页全部展开

现状和设想

——试论中文信息处理与现代汉语研究

相关文章：