《信息处理用现代汉语词汇研究》课题中期成果汇报(之一)

作 者:

作者简介:

原文出处:
语言文字应用

内容提要:

国家社科基金语言学科“九五”重大项目《信息处理用现代汉语词汇研究》第二次课题研讨会于1999年10月4日—10月7日在北京怀柔召开。全国人大常委会副委员长、课题组组长许嘉璐主持会议。国家语委主持工作的副主任朱新均到会听取了课题组的汇报并讲话。各子课题组负责人和主要参加者20余人参加了会议。 各子课题组首先汇报了1999年课题进展情况、存在问题及下一步的工作计划,随后进行了讨论。大家对各课题的难点和有争议的问题进行了讨论并达成了一致意见;大家还对某些课题提出了建设性意见。例如,《汉语文本短语结构的人工标注》课题的研究重点应放在短语边界的确定上,为短语的自动提取提供规则。许嘉璐在总结中指出:目前要进入结题倒计时,各课题要加强最后一年的集中研讨;课题规模和任务不要再扩大,要按原计划结题;各课题组要有结题文章或专著,将来汇集出版。 会议最后对两个影响全局需要先行的课题《信息处理用现代汉语分词词表》和《汉语词类及标记集规范》提出了具体结题时间。《信息处理用现代汉语分词词表》今年年底拿出定稿提供给其他课题组使用,2000年初召开审定会。《汉语词类及标记集规范》课题对征求意见三稿修改后,于今年11月底或12月初召开课题研讨会并在2000年初通过国家语委科研办的验收,然后召开课题审定会。其他课题的结题审定会也将在明年陆续安排。 国家语委科研办


期刊代号:H1
分类名称:语言文字学
复印期号:2000 年 06 期

关 键 词:

字号:

      信息处理用现代汉语词类及标记集规范

      李竹

      引言

      用于现代汉语信息处理系统中的汉语词类和词类标记集有很多种设计方案。经过多年的研究,人们对信息处理系统中的词类问题,已经有了一个基本统一的认识。现行的语言信息处理系统中的词类体系,从本质上说,没有实质性的差别,但在划分词类时的具体做法又不完全一致,词类标记集的大小和使用的符号也相差很多,这给语言信息处理系统的信息交换带来了困难,现在越来越需要有一套面向信息处理的、统一的现代汉语词类和标记集。国家语委语用所计算语言学研究室承担了《信息处理用现代汉语词类及标记集规范》(国家社科“九五”重大项目《信息处理用现代汉语词汇研究》的子课题,项目号97@yy001-4 )这一研究课题。我们制定的标记集规范力求满足中文信息处理的需求,覆盖信息处理用的现代汉语词汇集,使得各个汉语言信息处理系统能够用统一的词类描述方式体现各自的特性。

      在课题的研究过程中,我们通过各种方式对国内有影响的词类及标记集做了调查,标注了一定量的语料,并在一定词集上做了归类试验。

      一、词类及词类标记集规范的确定原则

      确定信息处理用现代汉语词类及词类标记集规范,首先要在现代汉语词集上,建立一个分类体系,该分类体系要符合信息处理的特殊目的和要求。信息处理用现代汉语词类及标记集规范工作的主要原则有三个:①语法功能原则,语法功能是词类划分的本质依据。词的意义不作为划分词类的主要依据,但有时也起某些参考作用。词的语法关系表现为词在句中的分布情况,它们都能充当什么样的句子成分,以及词和词、词和词组之间的组合关系。什么样的词可以组合在一起,组合起来后词与词之间或词与词组之间有一种什么样的关系?哪些词不能组合在一起?根据词的语法功能将词划分为不同的类别。②注意各种统计研究。现代汉语的某些词类,可能具有多种语法功能,但这多种功能的分布概率不同。在具体语料中,对词的句法功能和短语组合功能,进行全面深入的调查,根据词的分布特性,确定各类词的主要语法功能。③在中文信息处理界已产生了较大的影响,涉及词类标记集的相关系统,也是我们制定《信息处理用现代汉语词类及标记集规范》的重要参考。

      二、术语及解释

      1.词

      为满足计算机处理真实文本的需要,《信息处理用现代汉语词类及标记集规范》中的词,不仅限于语言学意义上的词,一些比词小的成分,如前接成分(前缀)、后接成分(后缀)、语素字、非语素字等,和比词更大的成分,如成语、习用语、简称略语以及标点符号、非汉字符号等。这样,《信息处理用现代汉语词类及标记集规范》才有可能与信息处理的实际相结合,提供信息处理所需的信息。《信息处理用现代汉语词类及标记集规范》中的词包括以下几项:

      (1)语言学家认可的词典中的词;

      (2)俗语、简称略语和一些结构较为紧密的成分, 如“总而言之”“齐抓共管”“勤学苦练”“千千万万”“说三道四”“三头六臂”“本着”“贱卖”“分之”等;

      (3)前后接成分;

      (4)语素字、非语素字等等;

      (5)标点符号及非汉字符号。

      2.词类

      词类是指对词按句法功能的原则划分的类。

      3.基本词类

      基本词类指《信息处理用现代汉语词类及标记集规范》中名词、动词、形容词等26个类。有关名词动词形容词等的描述将另写文章说明。

      4.细类

      细类是隶属于某个词类之下具有某些特殊性质的词的类,设立细类的目的是为了进一步描述基本词类下一些词的特殊句法功能,因此细类不同于语言学词类划分中的小类。设A,B,CD,……Z 是二十六个基本词类,X∈{A,B,C,…Z},是任一基本词类,X[,i]是任一细类,则有,

      

      ,其中i=1,…,k,k是基本词类X下细类的个数,#表示集合中元素的个数。即,每个词类集合之下的所有细类之并不大于该词类集合,不同细类集合之交可以不是空集。

      5.兼类

      汉语中的歧义现象极为普遍,表现在词类上的歧义就是兼类。兼类是指一个词具有两类或两类以上词的主要句法分布特征。这些词可以分为两类:(1)无论分布如何,词义没有发生根本变化, 即同形同音词在不同的分布中同义。(2)当具有不同的分布时,词义有明显的区别,即同形同音词在分布不同时词义不同。例:“国家标准”和“他的发音很标准”中的“标准”属于(1)类; 而“白跑了一趟”和“白颜色”中的“白”属于(2)类。语言学家们一般认为(1)类词是兼类词,而(2)类词当分布不同时根本就是不同的词,即同形词。在计算机语言信息处理系统中,对于(1)类词,因为它兼属不同的类, 在词典中要有它所兼的各类词的词类信息,并指出这是一个兼类词;对于(2 )类词,如果作为不同的词(同形词)收入机器词典,则在词典中给出这个词的同形词信息。如副词“本”与量词“本”,是同形词,既作为副词收入词典又作为量词收入词典,在副词“本”的记录中指出有一个同形的量词“本”,在量词“本”的记录中指出有一个同形的副词“本”,这样,对计算机而言,这个同形信息和兼类信息没有本质的区别,因此我们将(1)类词和(2)类词都看成是兼类词。当系统不具备词的语音信息时,一个同形词,如果具有两类或两类以上词的主要句法功能,这个词也是一个兼类词。

相关文章: