“《十三经词语索引》系统”的设计和建立

作 者:
甘锐 

作者简介:
甘锐 陕西师范大学辞书所 西安 710062

原文出处:
辞书研究

内容提要:


期刊代号:H1
分类名称:语言文字学
复印期号:2001 年 04 期

关 键 词:

字号:

      随着计算机技术的发展和普及,利用计算机进行中文信息处理已成为进行研究工作的一种不可替代的高效率手段。在辞书研究、编纂中,特别是在古籍专书辞典的编纂中,利用计算机来进行中文信息的处理,以更全面、更高效地完成研究、编纂任务,是一项十分重要、迫切的工作。

      《十三经词语索引》是同《十三经辞典》配套的国家重点项目,主要供检索《十三经》各部经书中所有的词语,各词语后例句涵盖本书中所有含有该词语的句子。这样一项工作,如果用人工进行检索、归纳、排序,无疑工作量将十分巨大,而以计算机辅助,则效率可大大提高。“《十三经词语索引》系统”就是为此而设计的。

      一、系统的设计思想和结构

      (一)设计思想

      本着易用、高效的指导思想,在设计中,尽量做到系统结构模块化、菜单分类化、操作简单化、功能完善化以及系统通用化。在此基础上,着重解决汉字信息库的建立、词语索引的形成、用户界面的设计、冷僻字形的输入和打印等关键性问题。

       在实现技术上, 主要以Windows95 为操作系统, 采用MicrosoftVisual FoxPro作为开发平台,以保证整个系统的高效性、 安全性及灵活性。

      (二)系统结构

      1.系统的总体结构

      整个系统的整体结构如下图所示:

      

      各模块之间通过应用程序有机联系在一起,保证了最后词语索引的正确无误。

      2.系统各模块的结构和功能

      ①原文库的建立。这包括《十三经》各部经书原文的录入,进行词语的标识等,其结果是形成原文信息库。

      ②汉字信息库的建立。汉字信息库是各经书中出现的所有汉字的全信息集合。它分为两个子库:部首号码信息库和汉字结构信息库,是进行各种排序的基本依据。

      ③信息的提取。从《十三经》各书原文信息库中提取所用汉字的信息,包括各单字头的总数,该单字头出现的频数。最后形成单字信息库。

      ④索引的形成。对各部经书中所有单字头下的单音词、复音词以及短语进行频数统计,形成统计信息库;提取索引、例句并排序,完成的索引信息存入各词语索引信息库中。

      ⑤信息的输出。各种中间信息如单字头、原文库等信息的打印,最终词语索引的打印以及索引文件格式的转换功能。

      系统功能的结构化和模块化,使得系统的效率提高,更利于使用、维护和升级。

      二、系统的实现

      本系统在图形操作界面、数据库的建立、库与库之间的联接关系、数据库的检索及维护等主要方面,均采用FoxPro编写应用程序。在文件操作、转换、打印控制、编辑修改等方面,采用Visual C++编写应用程序,以提高系统的整体运行速度。最后,统一在FoxPro下编译成独立的、可执行的系统程序。

      (一)原文信息库的设计和实现

      根据《十三经》各经书的特点,以及编写词语索引的具体要求,在建立系统数据库时遵循以下原则:原文信息一定要全面,库结构要尽量简单明了,信息分类要准确。

      各经书原文信息库均应包含原文、原文在经书中的页码和栏目三类信息。据此,设立二个字符型字段“原文页码”和“原文”;前者长度为5位,其中前4位为页码,末位为栏目;后者长度为70位,存储原文内容。这样的库结构可以使每部经书的信息库不致记录数过大,以提高检索速度。具体结构如下:

       原文页码 原文

       2457S/学而第一$/

       2457Z曾-子曰:"吾曰[三省]吾身,

       2458S子曰:"君-子不重,则不威;

       2458Z夫-子之求之也。

      对于计算机来说,单纯的文字数据还不足以完成我们所希望达到的检索功能,还必须对原文进行初步的加工,即作词语的标示。因此,必须预先设定一些标示符,在录入数据时一并输入。在原文页码字段,规定用S、Z、X分别表示上、中、下栏位;而在原文字段中, 用成对的“/”表示其间内容为标题,用“$”表示一段的结束,复音词以“-”相连,短语则用“[]”括起。在上面的例子中,“/学而第一$/”是经书第2457页上栏出现的一个标题,下一句另起一段;“夫-子”、“曾-子”等为复音词,[三省]则为短语。

      (二)汉字信息库的建立

      汉字信息库包括两部分:汉字结构信息库和部首信息库。结构信息库如下:

      单字部号 笔画起笔拼音四角号码

       三 12 11 san1 10101

       子 50

      0

      0

      zi3 17407

       曾 67

      8 432 zengl

      80606

      其中各字段的数据为:“单字”为字符型,2位; “部号”是其部首(共200部)对应序号,数字型,3位;“笔画”是除部首外的笔画数,数字型,2位;“起笔”为除去部首的笔形,数字型,3位;“拼音”为其读音及声调,字符型,7位;“四角号码”为数字型,5位。部首信息库如下:

      部号 部首名

相关文章: