传统语言文字学与信息技术结合,已经成为一种必然趋势。传统典籍丰厚的思想为信息技术的应用提供了广阔的发展空间;而信息技术的先进性又为传统典籍的整理和研究提供了更为科学的手段,这种相辅相成的关系促进这一领域的研究和应用迅速发展。 然而目前已有的研究均只是通过一定手段将传统典籍输入到计算机中,并通过自行设计的软件系统对这些典籍进行查询、检索,或者是对不同版本的典籍进行对比以发现这些典籍的错漏和讹误等;另有一些研究是借助计算机对某些典籍的局部语言文字现象进行统计分析,而对于那些人类已经有了比较深刻研究的特定典籍,如果仍停留在这种一般的查询和检索的层次上,或停留在某类现象的统计分析上,无论是对于这些典籍的教学还是科研,显然都是不够的。“基于超文本环境的《说文解字》教学、研究系统”课题正是基于这一理由而提出的。 “基于超文本环境的《说文解字》教学、研究系统”课题属于信息技术与传统文字学的交叉课题。它的总体目标是利用计算机这一先进技术手段,来建造一个《说文解字》教学、研究的系统软件,以便通过这一软件,贮存以往《说文解字》研究的成果,优化《说文》学的教学方法,扩大《说文》学的研究范围和加速《说文》学未尽项目的研究,进一步展现《说文》小篆构形系统,从而再次证实汉字构形的系统性,发展汉字构形学理论,进一步实现传统文字学与现代的接轨,达到继承与发展并重的目的。 要实现上述目标,需要从开发平台与开发工具的选择、原文的录入、知识点的确立、知识库的设计以及系统实现与超文本链接等方面分阶段、分层次地逐步进行,本文论述的就是其中“知识库设计”的原则和方法。 知识库是指为方便和有效地使用与管理大量的知识,而把人类已经具有的知识以一定的形式表示存储到计算机中所构成的系统,又称知识库系统。它是任何基于知识的智能系统的基础。目前知识库的研究和应用大致分为两个方面:一个方面是基于人工智能;另一方面是基于数据库。前者最典型的是专家系统,而后者则研究如何在数据库中加入推理规则,以使数据库具有推理能力。其中数据库即是用以存放用户提供的一些事实及用这些事实推断出来的新的事实,通常数据库是以表的形式来表示的。 基于超文本环境的《说文解字》的知识库是“基于超文本环境的《说文解字》教学、研究系统”的基本组成部分,同时也是核心构成。根据《说文解字》这部典籍的特点和历代研究《说文解字》的方法与策略,其知识库是以数据库为基础来设计的。 以数据库为基础来设计《说文解字》知识库,必然涉及《说文解字》典籍所呈现的体例,如果以结构的观点来看待这些体例,即是《说文》中提供的9353个篆字具备相同或不同的结构属性。从这一观点出发,我们所需构造的知识库在一定意义上来说就是9353个篆字的属性库。由于不是所有的篆字所具备的属性种类与数目都相同,因此该属性库的结构一旦构造成功,其内容肯定是参差不齐的,以数据库专业术语而言,即属性库具有相当大的冗余,为减少该属性库的冗余,必须对其结构进行规范化,这就导致我们所设计的属性库并不是唯一的,即属性库同时以多个表(库)的形式存在。而对于这些不唯一(多个)的属性库彼此之间的联系,需要通过所有表的结构中共同具有的某一属性即一种称之为关键字(keywords)的属性来建立和保持。 建立属性库的目的有从结构上反映《说文》体例的需要,也含对《说文》进行类聚分析的意图。但是仅以建立了属性库就认为可以进行“基于超文本环境的《说文解字》教学、研究系统”的设计与实现,还不够全面,毕竟属性库是一种静态的、非连续性地反映《说文》原旨的结构系统。为了能对《说文》内在规律进行充分的阐释,也为所实现的“教学与研究系统”具有更重要的价值,需要对属性库进行必要的改造与扩充,增加对《说文》内在规律的表征(如增加查询互训、递训、连绵词等现象的规则),由此就需要构造我们前文所说的知识库。为了达到这一目的,我们首先对《说文》中所包含的知识点进行分析,对每种属性进行设计,即首先完成属性库的构造。 根据《说文》学专家所提供的有关《说文解字》的全部知识点,我们可以结合实际体例对其中有关形、音、义的各类知识点逐一进行解释和分析,并进行设计。这里需要说明的是:对于某些属性值,《说文》中都有明确标识,本文均给出实例;对于另外一些属性值,《说文》中无明确标识而需要经过分析研究才能获得,本文均未给出实例。 一 “字形”知识点 包括三类属性: (1)直接构件及其功能;(2)结构模式(六书);(3 )字类与地位。 第一、直接构件及其功能属性。对于这一属性,可以从四个方面来分析,也就是该属性的取值范围具有四种可能性:表形功能、表义功能、表音功能和标示功能。 其中表形功能是指构件具有象物性,用与物象相似的形体体现构意,《说文》原文特征是“象X形”; 表义功能是指构件以它在独用时所记录的词的本义、引申义或相关意义来体现构意,《说文》原文特征是“从X”“从X省”;表音功能是指构件以它与所构字相同或相似的读音体现构意,《说文》原文特征是“X声”“X省声”“X亦声”; 标示功能是指构件附加在另一个构件上,起区别和指事作用。举例如下(其中反切为徐铉所加,非《说文》原有):