《说文解字》中描述性知识的知识表示建模

作者简介:
宋继华,北京师范大学信息科学与技术学院。(北京 100875); 李国玉,北京外国语大学中国外语教育研究中心。(北京 100089); 王宁,北京师范大学民俗典籍文字研究中心。(北京 100875); 郑振峰,河北师范大学文学院。(河北 石家庄 050091)

原文出处:
河北师范大学学报:哲社版

内容提要:

基于对《说文》描述性知识的结构分析,总结该书中字头排列及其说解的结构特征,对《说文》中描述性知识的知识体系采用以面向对象表示方法为基础、以框架表示方法为主体的知识表示技术进行建模,设计、开发出《说文》知识库系统,进而可为《说文》知识库研究的开放性和统一性奠定基础。


期刊代号:H1
分类名称:语言文字学
复印期号:2006 年 11 期

字号:

      在计算语言学领域,知识被分为描述性知识、规则性知识、控制性知识和元知识(Meta-knowledge)。一般来说,描述性知识是对知识的描述表达,是描述系统状态、环境和条件、问题的概念、定义和事实的知识;规则性知识是描述有关系统状态变化、问题求解过程的操作、演算和行为的知识;控制性知识表达的是比较、判断和决策的相应操作、演算以及行为等的知识;而元知识是一种关于知识的知识,它主要是用来寻找和选择目标知识的知识,也是一种为获取新知识所需的知识。

      《说文解字》(以下简称《说文》)成书于一千八百年前,“是我国语言学史上第一部分析字形、说解字义、辨识声读的字典”[1],其中蕴含不同类型的知识,涉及到描述性知识、规则性知识、控制性知识和元知识,而且《说文》中的描述性知识在体例上呈现明显的规范格式。

      不同类型的知识需要用不同的知识表示方法,“研究知识的表示方法,不单是解决如何将知识存储在计算机中的问题,更重要的是应该能够方便且正确地使用知识”[2]。《说文》中表征各种属性的描述性知识不仅丰富而且明显,并且这些描述性知识之间存在相似性和差异性,《说文》的深入研究需要对这些知识进行类聚或分类,进而进行分析或综合。以《说文》知识库的优化为出发点,《说文》中的描述性知识需要被提取、概括和抽象,并应用一定的知识表示技术进行建模。基于这种建模,可以提高《说文》相关信息的检索、系联、类聚,完成知识在更高层面上的再度综合。本文正是基于这种思想,对《说文》中描述性知识的知识表示建模进行了深入研究。

      一、知识表示技术概述

      “知识表示是利用计算机能够接受并进行处理的符号和方式来表示人类在改造客观世界中所获得的知识,它是在模拟信息如何在人类大脑中以何种方式存放的及其处理方式的基础上来对计算机信息处理中的知识的形式描述方式进行研究的,旨在利用计算机方便地表示、存储、处理和利用人类的知识”[2]。知识表示不同于数据结构,数据结构的重点是研究数据元素之间的关系,研究如何表示、存储、操作这些数据的技术;而知识表示强调的是怎样用一种比较合理的物理或逻辑形式来描述客观事物的相关知识。

      常用的知识表示方法很多,在建造具体的知识库系统时,究竟采用哪种表示模式并没有统一的标准,也没有一个万能的知识表示模式,应根据实际情况而定。构建《说文》知识库所选择的知识表示技术需要充分表达《说文》领域的知识,并能方便知识的进一步推理、系联,因此就需要对《说文》的整个体例结构以及每个字头所具有的形、音、义方面的属性对照、总结,从《说文》体系中发现总结有用的知识或规律,即以每个字头为依托,以原文训释为依据,对每个字头及其属性、规则、联系进行“知识建模”,通过合理的知识表示,推理并挖掘《说文》研究的更深层次的关系,从而促进《说文》的学习和研究。本文主要对《说文》中结构化比较好的描述性知识(良构知识)即“属性”进行了建模。

      二、《说文》中描述性知识的结构与层次

      《说文》作为一部说解汉字的著作,全文共9353个字头(其中重文1163个),立540个部首,统其余8813个字头,《说文》示例如下:

      禖祭也从示某声莫桮切

      祳社肉盛以蜃故谓之振天子所以亲遗同姓从示辰声春秋传曰石尚来归振时忍切

      1.《说文》字头的排列特点

      《说文》的540个部首之间主要是据形系联,以形体相近为部首排列的第一原则,如“一”、“示”、“三”、“王”等;其次是按照义的相关性排在一起,如“齿”后面的部首是“牙”;其余不能以形和义来排序的,就随意排列。

      一个部首里面的字一般都是把意义相近的放在一起,例如言部的“诗”、“识”、“讽”、“诵”列在一起;“讪”、“讥”、“诬”、“诽”、“谤”列在一起;月部“胯”、“股”、“脚”、“胫”、“腓”、“腨”列在一起。各部首里的排列次第从意义出发,基本上做到了以类相从。据黄侃《说文略说》的分析,“许君列字之次第,大氐先名后事,如玉部自璙以下皆玉名也;自璧以下皆玉器也;自瑳以下皆玉事也;自玭以下皆附于玉者也;殿之以灵,用玉者也。又或以声音为次,如示部‘禛’、‘祗’、‘禔’相近;‘祉’、‘福’、‘祐’、‘祺’相近;‘祭’、‘祀’、‘祡’相近。又或以义同异为次,如‘祈’、‘祷’同训求,则最为相近;‘祸’训害,‘祟’训祸,训相连,则最近。大氐次字之法,不外此三者也。”[3]

      以上正是《说文》贯彻“以类相从,不相杂越”原则的证明。

      2.《说文》说解部分的结构特征

      《说文》正文分为文字(字头)和对文字的说解两个部分。一是文字,首列正篆,次列各种异体,如上所述,这些字都是按部首和意义的相近程度排列在一起的;二是说解,包括按次序解释的字义、字形和字音,即首先释义,然后说形,最后辨音,正如《段注》所说,“合三者(形、音、义)以完一篆”,在每一条说解的末尾,还通过征引各种材料,来证明字义、字形、字音的可靠性。例如:

      皿饭食之用器也象形与豆同意凡皿之属皆从皿读若猛武永切

相关文章: