基于关系数据库的汉字构形分析及其应用

作 者:
赵彤 

作者简介:
赵彤,中国人民大学文学院副教授,博士,主要研究汉语史、汉语音韵学等(北京 100872)。

原文出处:
语言文字应用

内容提要:

文章提出一个汉字构造的关系模型和一种适于关系数据库处理的汉字构形分析模型。依靠这两个模型可以建立全面反映汉字构形信息的数据库,实现由部件、部件的组合方式、部件的功能等条件对汉字进行检索。文章还提出一种汉字表达式,可以作为汉字的代码,也可以应用于汉字的自动生成等领域。


期刊代号:H1
分类名称:语言文字学
复印期号:2015 年 12 期

字号:

      一 引言

      随着计算机技术的发展,数据库技术已经广泛应用到各个领域。建立汉字数据库,对于汉字本体研究和各种相关研究都有着重要的意义。一个汉字数据库,应当能够全面、准确地描述出汉字的各种信息,实现从不同角度对汉字进行快捷的检索和分类,从而为汉字本体研究与各相关领域的研究和应用提供便利。要实现这个目标,数据库的设计是关键。对于汉字数据库而言,数据库设计首先应当以汉字结构理论为基础,但是由于数据库理论和汉字理论属于两个不同的领域,简单地将一种现成的汉字结构理论搬到数据库设计中并不能很好地解决问题,因此有必要探索一种适于数据库处理的汉字结构分析模式。本文以目前应用最为广泛的关系数据库为平台,结合汉字构形学理论,尝试建立一种适于关系数据库处理的汉字构形分析模式。

      二 实体联系模型和关系模型

      使用计算机来处理现实世界的各种信息,需要用数据模型将对象描述出来。这个过程一般需要经过两级抽象:第一级抽象是人脑对现实世界的初步抽象,得到的是概念数据模型;第二级抽象是将概念数据模型转换为计算机能够处理的逻辑模型,即结构数据模型。

      (一)实体联系模型的基本概念

      常用的概念数据模型是陈品山(Chen,1976提出的实体联系模型(Entity-Relationship Model),简称E-R模型。该模型用E-R图(样式见下文汉字构造E-R模型图)来描述数据对象。下面简单介绍E-R模型的几个基本概念及其在E-R图中的表示法。

      1.实体(entity)。指任何客观存在的事物或抽象的概念。如汉字、笔画。同一类型的实体构成一个实体集(entity set)。实体在E-R图中用矩形框表示。

      2.属性(attribute)。指实体或联系的特征。如汉字有读音、部首、笔画数等属性。属性在E-R图中用椭圆形框表示。

      3.实体标识符(identifier)或键(key)。指能唯一标识一个实体的属性或属性集。比如《说文》540部的序号可以作为《说文》部首的实体标识符。实体标识符通常用下划线标明。

      4.联系(relationship)。指实体之间的关系。如笔画和汉字之间是组成关系。联系在E-R图中用菱形框表示。联系分为一对一(1:1)、一对多(1:n)和多对多(n:m)三种。比如一个汉字可以由多个笔画组成,一个笔画可以出现在多个汉字中,所以汉字和笔画之间是多对多的关系。

      (二)关系模型的基本概念

      计算机不能直接处理E-R模型,需要将其转换为结构数据模型。常见的结构数据模型有层次模型、网状模型和关系模型。关系数据库以关系模型为基础。关系模型有如下几个基本概念:

      1.关系(relation)。是由行和列组成的二维表,对应于关系数据库中的表(table)。

      2.元组(tuple)。表中的行称为元组,对应于关系数据库中的记录(record)。

      3.属性(attribute)。表中的列称为属性,对应于关系数据库中的字段(field)。

      4.键(key)。关系中可以唯一确定一个元组的属性或属性组,对应于关系数据库中的主键(key)。关系中的任何一个元组在组成主键的属性上都不能为空。

      一个关系可以表示为。R是关系名,A是关系的属性名。如汉字(字形,读音,部首,笔画数)。

      (三)将E-R模型转换为关系模型的规则

      E-R模型中所有的实体和联系在关系模型中都要转换为相应的关系。

      1.每一个实体集都应转换为一个关系,实体的标识符就是这个关系的主键。这个关系中的一个元组代表一个实体,主键能够唯一确定一个实体。

      2.联系有不同的处理方式:

      (1)一对多的联系将“一方”的主键纳入“多方”的关系,如果联系有属性也一并纳入多方的关系中。

      (2)多对多的联系需要为联系单独建立一个关系,这个关系要包含被它联系的两个实体集的主键,关系的主键是两个实体集主键的组合。如果联系有属性也要纳入这个关系中。

      (3)一对一的联系可以将其中任何一方的主键纳入另外一方的关系,也可以为联系单独建立一个关系。

      三 汉字构造的数据模型

      建立汉字数据库首先要把汉字的构造用关系模型描述出来,这个工作需要以汉字结构理论为基础。

      (一)六书说不适于关系模型

      传统的六书说影响很大,但是以六书说为基础来建立关系会遇到一些困难。

      1.六书说本身存在不足。(1)六书不能涵盖所有汉字。(2)六书中的转注含义不明。(3)六书中的假借不涉及汉字的构造。(4)六书中的象形、指事、会意三类之间的界线不明确。(裘锡圭,1988:97-104)

      2.元组的属性难以确定。如果我们以《说文》中的小篆为对象建立关系,一个元组应该描述一个小篆,那么通过哪些属性来描述一个小篆呢?《说文》中每个小篆所属的部首和六书的类型大致是确定的,因此部首和六书可以作为这个关系的属性,但是仅仅用这两个属性来描述小篆显然是不充分的。如果把形旁和声旁看做属性,由于一个小篆可以有多个形旁(会意字都属此类),也可以有多个声旁(如“竊”“”),那么属性的数量是不确定的,相应的表的结构就是不确定的,这是数据库设计的大忌。如果取形旁和声旁可能的最大值来建立关系,例如:

相关文章: