计算机技术和汉语史研究

作 者:

作者简介:
尉迟治平(1944- ),男,山西汾阳人,华中理工大学教授,文学硕士,从事汉语史研究。 华中理工大学 中国语言研究所,湖北 武汉430074

原文出处:
《古汉语研究》

内容提要:

利用计算机技术辅助古代汉语研究,是将计算机对语料的形式化处理和专家对语料的分析判断结合起来的人机互动过程。主要工作有电子文献的生产,电子语料库的建设,专家知识数据库的开发和专用软件的研制几个方面。


期刊代号:H1
分类名称:语言文字学
复印期号:2001 年 01 期

字号:

      [中图分类号]H087[文献标识码]A[文章编号]1001-5442(2000)03-0056-05

      电子计算机诞生虽然不到50年,却推动人类以空前迅速的速度进入了信息社会。信息社会的主要特征,是利用计算机进行信息处理,信息革命的浪潮正以汹涌澎湃之势,覆盖人类生活的所有领域。语言是人类最重要的交际工具,是人类社会最早至今也是最重要的信息载体,因此,计算机科学从产生之日起,就同语言学结下了不解之缘,语言信息处理理所当然成为当代信息革命的一个重要领域。

      自从1946年世界上第一台电子计算机产生,计算机科学就和语言科学结下了不解之缘。计算语言学(Computational Linguistics),又称语言信息处理,是一门综合性的交叉学科,它涉及到计算机科学、语言学、数学、声学、生理学、心理学和社会学等学科,其中最主要的就是计算机科学和语言学。一方面可以利用语言学的研究成果,促进计算机科学的发展,一方面也可以利用计算机技术,进行语言学的研究。后者,我们可以仿照CAD、CAI,称之为语言学的计算机辅助研究。(Computer-Assisted Research,CAR)

      汉语的CAR,最先是在现代汉语领域展开,工作主要是自然语言分析、情报检索、词语统计、风格研究、汉字信息处理等方面。汉语史的CAR,起步相对较晚,工作主要是古籍电子文本的复制,而且由于各种条件的限制,主要是一些研究机构、公司和出版社在进行一些相关工作。最近几年来,计算机技术取得了前所未有的飞跃发展,硬件成本急剧下降,个人电脑迅速进入家庭,存贮量越来越大,速度越来越快,功能越来越强大,操作越来越简单,开始有越来越多的语言学家运用计算机技术进行汉语史的本体研究,本文所说的汉语史的CAR,指的就是这种基于个人电脑的专家研究工作。

      我们认为,汉语史的CAR,大致可以分为电子文献的生产,电子语料库的建设,专家知识数据库的开发和专用软件的研制几个方面。下面分别对这几个问题的内容、性质和特点进行一些讨论。

      一、电子文献的生产。

      文献保存了人类文明的所有成果,对于人类社会的发展有着不可估量的作用。文献的传统载体,主要是纸张,电子计算机使文献有了新的载体——磁盘、磁带和光盘等。电子文献比起纸质文献,有着占据空间极小,存贮量大,检索方便,传输迅速,保存期长等优势,因此,美国有著名的“古腾堡计划”(Project Cutenberg),以每天10万页大约5-6千万字的速度,把各种人类知识遗产转换到因特网上,但是关心教育和知识生产的人士仍然认为这个速度“太慢了”,无法消化人类知识的总资产。

      电子文献比起纸质文献,并不就是文献载体的简单转换。电子文献可以利用计算机技术,进行多途径的检索,相关信息的全方位的查阅,迅速准确的分析归纳,文献利用、转换和再生产的一体化,这些功能是传统文献所无法具备的。因此,电子文献的生产是汉语史CAR的先决条件和最基础的工作,也是汉语史CAR开始得最早,取得成果最多的工作。

      中国大陆、香港、台湾和海外日本等地的大学、科研团体和出版机构,都进行过电子文献生产这方面的工作。其中成绩最为显著的,应该是北京书同文公司的“文渊阁四库全书电子版”和台北中央研究院的“汉籍电子文献资料库”。“文渊阁四库全书电子版”工程是中国“国家九五重点电子出版项目”,分为“原文及标题检索版”(简称标题版)和“原文及全文检索版”(简称全文版)。标题版即图形版,可以按类属、书目、著者、朝代、卷内标题检索阅读所需文献;全文版除了有标题版的检索功能外,还有全文检索功能,并且配有一些电子形式的工具书,可以帮助读者解决有关的训诂学、文献学的问题。中央研究院的“汉籍电子文献资料库”的开发,至今已经有十四年,计划选择对中国传统人文研究具有重要价值的古代文献,建立全文电子资料库,现在已经完成的有包括二十五史、十三经在内的中国唐代以前的大部分重要文献,并将逐步纳入穴代以下的重要文献。在底本上,“汉籍电子文献资料库”不象“四库全书电子版”受到文渊阁本的限制,而注意了选择好的版本,同时也包括了许多现代学者的标点校注整理本,因此,更符合专家学者进行研究工作的需要。

      现存的中国古籍,据有关专家估计,应该在八至十万种左右,目前生产的电子文献,只是其中通行的常用的一部分。专家进行科学研究时,却往往要使用一些不常见的专门的文献,即使是通行的古籍,由于文献学和语言学上的原因,要使用那些特殊的版本。在这样的情况下,汉语史研究者只能自己生产电子文献。

      电子文献的形式,主要有文本文件形式和图形文件形式。文本文件是将古籍文字录入计算机,转换成数字形式而形成,图形形式是将古籍版面扫描输入计算机,存为图象而形成。这两种形式,分别相当于纸质文献中的排点本和影印本。

      图形型的电子文献,可以保存古籍的原貌,不仅是文字的各种变体,如讹字、缺笔,墨丁、空围,笔画丰腴瘦劲,而且连版面行款,纸质墨色,都可以逼真地加以反映,可以让善本、孤本古籍在存贮传输上获得一个新的途径。这在古籍的研究上,显然是文本文件所无法代替的。但是,图形文件占据的存贮空间巨大,检索手段有限,一般只能按页阅读。这些问题的改进和解决,还有待于计算机技术的发展。所以,现在电子文献的主要形式,还是文本形式。

相关文章: