什么是中文信息处理?现在对中文信息处理通常的理解是:用计算机来加工处理中文的信息,属于涉及计算机科学、认知科学、语言学、信息学、数学、声学等多种学科的一门综合性交叉学科。 本文所说的“共和国的中文信息处理”,首先就是特指对《中华人民共和国国家通用语言文字法》所规定的汉语普通话和规范汉字的信息处理,当然进一步也包括对汉语汉字所承载的传统文化的处理。所以这里的“中文”和联合国的六种“工作语文”中的“中文”一样,都是特指汉语和汉字。上述说法在中华人民共和国国家标准《汉语信息处理词汇01部分:基本词汇》①中早有规定:语言信息处理是指:“用计算机对自然语言的音、形、义等信息进行处理。即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的造作与加工。”汉语信息处理和其他各民族的语言信息处理都是语言信息处理的下位概念。汉语信息处理是指“用计算机对汉语的音、形、义等信息进行处理,有时又称中文信息处理”。汉字信息处理是指“用计算机对汉字表示的信息进行操作与加工,如汉字的输入、输出、识别等”。 所以,中文信息处理是“又称”,也是俗称。正确的、科学的术语应该是国家标准确定的正条“汉语信息处理”,它包括两个大的方面“汉语信息处理”和“汉字信息处理”。 我们把共和国的中文信息处理60年分为三个阶段:起步阶段、重振阶段与大发展阶段。起步阶段从1949年开始到1966年,重振阶段从1974年“748工程”开始到1981年,大发展阶段从1981年的中国中文信息学会成立至今。 一、中文信息处理起步阶段 第一台计算机诞生在1946年,1960年后,商用电脑开始普及,电脑被用于处理大规模的数据,其中的重要方面是处理语言文字的信息。西文进入电子计算机(或称电脑)不成问题,但是中文(或称汉字)进入计算机却成为一大难题。这就是“汉字信息处理”阶段要解决的最主要问题,即汉字在计算机上的输入、输出和自动识别等方面的问题。汉字的字数多、笔画繁难使中文的信息处理失去了一个打字机的发展推广时代,笨重的中文铅字打字机不便于携带,又只能由专门的打字员来操作。尽管我们有科学家(如上海仪器仪表研究所的支秉彝总工程师)“文革”期间冒着风险在牛棚里研究汉字编码,尽管1974年已经启动了汉字信息处理为主要攻关目标的748工程,但是汉字进入计算机还是一个科学的梦,是中国的“第五大发明”,谈何容易。直到1984年,在采访洛杉矶奥运会的全世界7000名记者中,只有新华社的22名中国记者用手写他们的报道,中文信息处理的便捷应用问题那时还没有彻底解决。 也正是在解决电脑中文化的时候,我们才对新中国的汉字整理、改革工作有了新的认识和体会,年轻的人民共和国的一系列汉语汉字规范及相关的整理研究,已经为中文的信息处理进行了重要的语言文字前期准备。 1949年10月1日,中华人民共和国宣告成立,10月10日,吴玉章发起的中国文字改革协进会就紧接着宣告成立;1952年2月5日,主管新中国文字改革工作的研究机构“中国文字改革研究委员会”成立,整理和简化汉字是委员会的既定工作任务之一;1954年“中国文字改革委员会”正式成立,这是一个行政职能部门,隶属国务院,在周恩来总理领导下工作。 1952年教育部公布2000常用字表(一等常用字1010个、次等常用字490个、补充常用字500个)作为扫盲的标准。此后,简化汉字(包括简化笔画和字数)、推广普通话、制定和推行汉语拼音方案成为文字改革工作的三项主要任务。这些工作的推进为中文进入计算机并实现大众化,为后来国家相关部门②制定信息处理用的语言文字国家标准,准备并提供了极其重要的基础③。这一切都应纳入共和国的中文信息处理起步阶段。 在起步阶段,共和国不仅关注“汉字信息处理”的预备性工作,也已经超前关注了“汉语信息处理”的问题。国际上计算机和语言的最早结合开始于机器翻译,1946年电子计算机问世后,英国工程师A.D.布斯和美国工程师W.韦弗在讨论计算机的应用范围时,就提出了利用计算机进行语言自动翻译的设想。1949年,韦弗发表以《翻译》为题的备忘录,正式提出了机器翻译的问题。1954年,美国乔治敦大学与国际商用机器公司用IBM-701计算机进行了世界上第一次机器翻译试验。仅仅两年后的1956年,年轻的人民共和国就在周恩来总理的提议和领导下,把机器翻译列入《1956~1967年科学技术发展远景规划》(简称《十二年科技规划》),其时距国际上机器翻译试验不到两年。1957年,中国的机器翻译研究工作开始进行,这可以说是中文信息处理的第一项正式工程。首先研究的是俄汉机器翻译,并于1959年成功地进行了试验,不过译文输出是代码,而不是汉字,因为当时没有汉字输出装置④。1958年底至1960年初,又研制了一套英汉机器翻译规则系统。1966~1975年,因为国际机器翻译进入低潮期和国内时局的双重原因,工作处于停顿状态。 语音的信息处理也应是语言信息处理的研究范围。语音打字的任务早在1958年便已提出。1964年研发出“元音识别机”,1970年前后又研发出10个口呼汉语数字的识别机,最早应用到114电话号码查询台。但利用电子计算机进行语音识别研究,则始于1972年。