信息处理用现代汉语词类及标记集规范 李竹 引言 用于现代汉语信息处理系统中的汉语词类和词类标记集有很多种设计方案。经过多年的研究,人们对信息处理系统中的词类问题,已经有了一个基本统一的认识。现行的语言信息处理系统中的词类体系,从本质上说,没有实质性的差别,但在划分词类时的具体做法又不完全一致,词类标记集的大小和使用的符号也相差很多,这给语言信息处理系统的信息交换带来了困难,现在越来越需要有一套面向信息处理的、统一的现代汉语词类和标记集。国家语委语用所计算语言学研究室承担了《信息处理用现代汉语词类及标记集规范》(国家社科“九五”重大项目《信息处理用现代汉语词汇研究》的子课题,项目号97@yy001-4 )这一研究课题。我们制定的标记集规范力求满足中文信息处理的需求,覆盖信息处理用的现代汉语词汇集,使得各个汉语言信息处理系统能够用统一的词类描述方式体现各自的特性。 在课题的研究过程中,我们通过各种方式对国内有影响的词类及标记集做了调查,标注了一定量的语料,并在一定词集上做了归类试验。 一、词类及词类标记集规范的确定原则 确定信息处理用现代汉语词类及词类标记集规范,首先要在现代汉语词集上,建立一个分类体系,该分类体系要符合信息处理的特殊目的和要求。信息处理用现代汉语词类及标记集规范工作的主要原则有三个:①语法功能原则,语法功能是词类划分的本质依据。词的意义不作为划分词类的主要依据,但有时也起某些参考作用。词的语法关系表现为词在句中的分布情况,它们都能充当什么样的句子成分,以及词和词、词和词组之间的组合关系。什么样的词可以组合在一起,组合起来后词与词之间或词与词组之间有一种什么样的关系?哪些词不能组合在一起?根据词的语法功能将词划分为不同的类别。②注意各种统计研究。现代汉语的某些词类,可能具有多种语法功能,但这多种功能的分布概率不同。在具体语料中,对词的句法功能和短语组合功能,进行全面深入的调查,根据词的分布特性,确定各类词的主要语法功能。③在中文信息处理界已产生了较大的影响,涉及词类标记集的相关系统,也是我们制定《信息处理用现代汉语词类及标记集规范》的重要参考。 二、术语及解释 1.词 为满足计算机处理真实文本的需要,《信息处理用现代汉语词类及标记集规范》中的词,不仅限于语言学意义上的词,一些比词小的成分,如前接成分(前缀)、后接成分(后缀)、语素字、非语素字等,和比词更大的成分,如成语、习用语、简称略语以及标点符号、非汉字符号等。这样,《信息处理用现代汉语词类及标记集规范》才有可能与信息处理的实际相结合,提供信息处理所需的信息。《信息处理用现代汉语词类及标记集规范》中的词包括以下几项: (1)语言学家认可的词典中的词; (2)俗语、简称略语和一些结构较为紧密的成分, 如“总而言之”“齐抓共管”“勤学苦练”“千千万万”“说三道四”“三头六臂”“本着”“贱卖”“分之”等; (3)前后接成分; (4)语素字、非语素字等等; (5)标点符号及非汉字符号。 2.词类 词类是指对词按句法功能的原则划分的类。 3.基本词类 基本词类指《信息处理用现代汉语词类及标记集规范》中名词、动词、形容词等26个类。有关名词动词形容词等的描述将另写文章说明。 4.细类 细类是隶属于某个词类之下具有某些特殊性质的词的类,设立细类的目的是为了进一步描述基本词类下一些词的特殊句法功能,因此细类不同于语言学词类划分中的小类。设A,B,CD,……Z 是二十六个基本词类,X∈{A,B,C,…Z},是任一基本词类,X[,i]是任一细类,则有,
,其中i=1,…,k,k是基本词类X下细类的个数,#表示集合中元素的个数。即,每个词类集合之下的所有细类之并不大于该词类集合,不同细类集合之交可以不是空集。 5.兼类 汉语中的歧义现象极为普遍,表现在词类上的歧义就是兼类。兼类是指一个词具有两类或两类以上词的主要句法分布特征。这些词可以分为两类:(1)无论分布如何,词义没有发生根本变化, 即同形同音词在不同的分布中同义。(2)当具有不同的分布时,词义有明显的区别,即同形同音词在分布不同时词义不同。例:“国家标准”和“他的发音很标准”中的“标准”属于(1)类; 而“白跑了一趟”和“白颜色”中的“白”属于(2)类。语言学家们一般认为(1)类词是兼类词,而(2)类词当分布不同时根本就是不同的词,即同形词。在计算机语言信息处理系统中,对于(1)类词,因为它兼属不同的类, 在词典中要有它所兼的各类词的词类信息,并指出这是一个兼类词;对于(2 )类词,如果作为不同的词(同形词)收入机器词典,则在词典中给出这个词的同形词信息。如副词“本”与量词“本”,是同形词,既作为副词收入词典又作为量词收入词典,在副词“本”的记录中指出有一个同形的量词“本”,在量词“本”的记录中指出有一个同形的副词“本”,这样,对计算机而言,这个同形信息和兼类信息没有本质的区别,因此我们将(1)类词和(2)类词都看成是兼类词。当系统不具备词的语音信息时,一个同形词,如果具有两类或两类以上词的主要句法功能,这个词也是一个兼类词。