[中图分类号]H087[文献标识码]A[文章编号]1001-5442(2000)03-0056-05 电子计算机诞生虽然不到50年,却推动人类以空前迅速的速度进入了信息社会。信息社会的主要特征,是利用计算机进行信息处理,信息革命的浪潮正以汹涌澎湃之势,覆盖人类生活的所有领域。语言是人类最重要的交际工具,是人类社会最早至今也是最重要的信息载体,因此,计算机科学从产生之日起,就同语言学结下了不解之缘,语言信息处理理所当然成为当代信息革命的一个重要领域。 自从1946年世界上第一台电子计算机产生,计算机科学就和语言科学结下了不解之缘。计算语言学(Computational Linguistics),又称语言信息处理,是一门综合性的交叉学科,它涉及到计算机科学、语言学、数学、声学、生理学、心理学和社会学等学科,其中最主要的就是计算机科学和语言学。一方面可以利用语言学的研究成果,促进计算机科学的发展,一方面也可以利用计算机技术,进行语言学的研究。后者,我们可以仿照CAD、CAI,称之为语言学的计算机辅助研究。(Computer-Assisted Research,CAR) 汉语的CAR,最先是在现代汉语领域展开,工作主要是自然语言分析、情报检索、词语统计、风格研究、汉字信息处理等方面。汉语史的CAR,起步相对较晚,工作主要是古籍电子文本的复制,而且由于各种条件的限制,主要是一些研究机构、公司和出版社在进行一些相关工作。最近几年来,计算机技术取得了前所未有的飞跃发展,硬件成本急剧下降,个人电脑迅速进入家庭,存贮量越来越大,速度越来越快,功能越来越强大,操作越来越简单,开始有越来越多的语言学家运用计算机技术进行汉语史的本体研究,本文所说的汉语史的CAR,指的就是这种基于个人电脑的专家研究工作。 我们认为,汉语史的CAR,大致可以分为电子文献的生产,电子语料库的建设,专家知识数据库的开发和专用软件的研制几个方面。下面分别对这几个问题的内容、性质和特点进行一些讨论。 一、电子文献的生产。 文献保存了人类文明的所有成果,对于人类社会的发展有着不可估量的作用。文献的传统载体,主要是纸张,电子计算机使文献有了新的载体——磁盘、磁带和光盘等。电子文献比起纸质文献,有着占据空间极小,存贮量大,检索方便,传输迅速,保存期长等优势,因此,美国有著名的“古腾堡计划”(Project Cutenberg),以每天10万页大约5-6千万字的速度,把各种人类知识遗产转换到因特网上,但是关心教育和知识生产的人士仍然认为这个速度“太慢了”,无法消化人类知识的总资产。 电子文献比起纸质文献,并不就是文献载体的简单转换。电子文献可以利用计算机技术,进行多途径的检索,相关信息的全方位的查阅,迅速准确的分析归纳,文献利用、转换和再生产的一体化,这些功能是传统文献所无法具备的。因此,电子文献的生产是汉语史CAR的先决条件和最基础的工作,也是汉语史CAR开始得最早,取得成果最多的工作。 中国大陆、香港、台湾和海外日本等地的大学、科研团体和出版机构,都进行过电子文献生产这方面的工作。其中成绩最为显著的,应该是北京书同文公司的“文渊阁四库全书电子版”和台北中央研究院的“汉籍电子文献资料库”。“文渊阁四库全书电子版”工程是中国“国家九五重点电子出版项目”,分为“原文及标题检索版”(简称标题版)和“原文及全文检索版”(简称全文版)。标题版即图形版,可以按类属、书目、著者、朝代、卷内标题检索阅读所需文献;全文版除了有标题版的检索功能外,还有全文检索功能,并且配有一些电子形式的工具书,可以帮助读者解决有关的训诂学、文献学的问题。中央研究院的“汉籍电子文献资料库”的开发,至今已经有十四年,计划选择对中国传统人文研究具有重要价值的古代文献,建立全文电子资料库,现在已经完成的有包括二十五史、十三经在内的中国唐代以前的大部分重要文献,并将逐步纳入穴代以下的重要文献。在底本上,“汉籍电子文献资料库”不象“四库全书电子版”受到文渊阁本的限制,而注意了选择好的版本,同时也包括了许多现代学者的标点校注整理本,因此,更符合专家学者进行研究工作的需要。 现存的中国古籍,据有关专家估计,应该在八至十万种左右,目前生产的电子文献,只是其中通行的常用的一部分。专家进行科学研究时,却往往要使用一些不常见的专门的文献,即使是通行的古籍,由于文献学和语言学上的原因,要使用那些特殊的版本。在这样的情况下,汉语史研究者只能自己生产电子文献。 电子文献的形式,主要有文本文件形式和图形文件形式。文本文件是将古籍文字录入计算机,转换成数字形式而形成,图形形式是将古籍版面扫描输入计算机,存为图象而形成。这两种形式,分别相当于纸质文献中的排点本和影印本。 图形型的电子文献,可以保存古籍的原貌,不仅是文字的各种变体,如讹字、缺笔,墨丁、空围,笔画丰腴瘦劲,而且连版面行款,纸质墨色,都可以逼真地加以反映,可以让善本、孤本古籍在存贮传输上获得一个新的途径。这在古籍的研究上,显然是文本文件所无法代替的。但是,图形文件占据的存贮空间巨大,检索手段有限,一般只能按页阅读。这些问题的改进和解决,还有待于计算机技术的发展。所以,现在电子文献的主要形式,还是文本形式。