基于语素数据库的汉语语素及构词研究(注:本文为国家自然科学基金资助项目。)

作 者:

作者简介:
清华大学 苑春法,男,清华大学计算机系副教授。清华大学自动控制系本科毕业,1982年获清华大学工学硕士学位。多年来从事汉语计算语言学的研究,涉及的领域有汉语语料库、汉语语素数据库和汉语自动句法分析。在这些研究领域中取得了多项研究成果并发表学术论文多篇。 黄昌宁,男,清华大学计算机系教授,博士生导师,中国中文信息学会计算语言学专委会主任。清华大学自动控制系本科毕业。长期从事计算语言学的研究,曾主持完成多项重大科研项目。出版《人工智能原理》、《语言信息专论》及学术论文80余篇。

原文出处:
世界汉语教学

内容提要:


期刊代号:H1
分类名称:语言文字学
复印期号:1998 年 09 期

关 键 词:

字号:

      一 汉语语素数据库

      汉语语素数据库是清华大学在自然科学基金支持下建立的一个大规模数据库(参考文献1)。它对覆盖6763 个汉字的汉语语素及其所构二字词、三字词及四字词(参考文献4)进行了穷举描述。 在汉语语素数据库中共有汉语语素项17470个,语素10442个,二字词78230个, 三字词6700个,四字词14200个。整个数据库共有116600条记录。 二字词一般有两个语素构成,所以二字词数据库中存在着一些冗余信息。例如“定”这个语素项可以组词为“定单”,而“单”这个语素项也可以组词为“定单”,二者分别形成2条记录。为了研究方便, 我们可以把两条记录合并为一,三字词及四字词也有类似的情况。经过合并处理之后,二字词有45960条记录,三字词有3930条记录,四字词有4820 条记录。

      在汉语语素数据库中,一个语素的一个义项(即语素项)构成一个独立的记录。

      定义1:语素是音义结合的最小语言单位。 凡读音和意义完全相同而字形不同的,原则上作为一个语素。读音和意义中有一个不相同的,原则上作为两个语素。

      定义2:语素项是指一个语素的一个义项(本义、 引申义或比喻义)(参考文献1)。

      在汉语语素数据库中对汉语语素的特性主要进行了如下描写:

      释义:是指该语素在该义项下(语素项)的意义(参考文献4)。

      类别:是指语素的类别(素类),主要参照意义对汉语语素进行的分类。

      成词:是指该语素项在短语或句子中能独立成词。

      不成词:是指该语素项在短语或句子中不能独立成词,而只能作为构词成分。

      半成词:是指该语素项有时在短语或句子中能独立成词,有时则不能。即一般该语素项不能独立成词,但在这样或那样的条件下可以独立成词。

      不定位:是指该语素项在其所构词中的位置不固定,可前、可后、可中。前位(后位或中位),是指该语素项在其所构词中的位置是前位(后位或中位)。

      语素所构词的描述,主要有词形、读音、词类、构词方式、类序、多义及字义组合等。

      构词方式:是指语素以主谓、偏正、联合、述宾,述补等结构形式组成为词。

      类序:是指由语素项所构词中各语素项素类的序列。如“打球”,其类序为vn。

      多义:是指某词是否有多义。这里的多义是指词形、词类、构词方式和字义组合均相同的情况下仍存在一个以上的义项。

      字义组合:用来描写词义与组词各语素项意义间的关系。如果词义是由组词各语素项意义组合而成的(如“恳求”),则此栏填“2”;如果不是(如“买东西”的“东西”),则填“0”; 如果介乎二者之间(如“火腿”、“大学”),则填“1”。

      二 汉语语素的分布

      经初步统计,覆盖6763个常用汉字的语素项共有17470个。 语素项归并为语素有10442个。其中单字语素有9712个,占总数的93.0%; 二字及二字以上的语素为730个,占总数的7.0%。由此可见单字语素占汉语语素的绝大多数。这部分语素是汉语构词中的活跃因素,二字及二字以上语素一般很少再组新词。在单字语素中还有1959个0义项语素, 这些0义项语素一般和其它语素构成的词是属于固定用法或典故, 即不归入任何一个义项而单独列出的词(参考文献4)。 难以确定这些语素在组词中的作用,难以断定它的构词方式。这类0 义项语素组成的词是汉语文化的历史产物。例如:0义项语素“瓦0”构词为“瓦全”、“弄瓦”等;0义项语素“外0”构词为“员外”等。

      这些0义项语素对于我们研究汉语的构词规律, 难以起到什么作用。去掉这些语素后汉语的单字语素还有7753个。我们认为,研究这7753个语素对于揭示汉语的构词规律有直接的意义,因而我们称这些语素为基本语素。基本语素的素类分布如下表所示:

      素项 名词性动词性 形容词性 副词性 介词性

      数量 3612

      2433 982

      152 26

      百分比46.7

      31.4 12.7 2.0 3

      素项 代词性连词性叹词性 助词性 象声词性

      数量61

      27 38 28

      67

      百分比 .8

      .3 .5 .4

      .9

      素项 数词性量词性其它共计

      数量45

      157 125 7753

      百分比 .6

      2.0 1.6 100.

      由以上可见,名词性语素最多,占46.7%,其次是动词性语素,占31.4%,形容词语素占12.7%,三类合计占总数的89.8%。在复合二字词中名词最多,占51%,其次是动词,占36.4%,形容词占7.6%, 三类合计占95%(参考文献3)。 基本语素的素类分布和复合二字词词类的分布大致相似,其原因留待下文来解释。

      对7753个语素是否可以单独成词情况及成词时的位置情况统计如下:

      位置任意 前位

      后位 待界定 总计

      成词

      2407(31.1)

      150(1.9)

      67(0.9)

      254(3.3) 2878(37.1)

      不成词 1735(22.4)

      841(10.8) 582(7.5)

      137(1.8) 3295(42.5)

相关文章: