现代汉语五万词语归类的实践*

作者简介:
朱学锋 俞士汶 王惠 北京大学计算语言学研究所,邮编:100871

原文出处:
语言文字应用

内容提要:

北京大学计算语言学研究所与中文系合作,历时10余年,研制了一部电子版的“现代汉语语法信息词典”。研制“现代汉语语法信息词典”的理论基础是朱德熙先生倡导的汉语“词组本位”语法体系。词语分类则是词典工程的基础。本文在论述了对词类问题的基本认识之后,介绍了语法信息词典所遵循的现代汉语词语分类体系。词典中收录的5万多词语已经归入了这个分类体系。本文重点讨论归类过程中遇到的困难以及所采取的策略。


期刊代号:H1
分类名称:语言文字学
复印期号:1998 年 01 期

关 键 词:

字号:

      一 关于汉语词类问题的基本认识

      北京大学计算语言学研究所与中文系合作,历时10余年,研制了一部电子版的“现代汉语语法信息词典”。希望了解这部词典的内容及其应用的读者请参考本文所附的文献,[1,2,3,4]笔者不再赘述。本文总结在这项语言工程中所完成的5万多词语归类的实践经验,因而不得不涉及词典赖以建立的词语分类体系,也就不得不涉及汉语词类问题。词类问题是汉语语法研究中的老大难问题。

      1.汉语的词语需要分类。本文所说的词类就是一般人熟悉的名词、动词、副词、介词等等。

      这是从研究句组织和句法分析的角度对词语进行的分类。面向人的语法研究需要研究词类,面向机器的语法研究也需要研究词类。在用于自然语言处理的各种语法理论中,上下文无关语法是最基本的,根据它分析句子所得到的句法树的叶结点都是词类代码。“现代汉语语法信息词典”是以词语分类为基础的。[2]

      2.汉语的词语可以分类。经过100多年的长期研究,语法学界对汉语词类理论问题的认识大体上已经趋于一致,[7,8]很多学者都在自己的论著中提出了汉语的词类系统,不过彻底的研究应当是一个词一个词地进行考察,至少要完成几万个常用词语的实际归类。“现代汉语语法信息词典”收录词语5万多,并分别归入25个类别中。这项研究工作的一个重要特点是面向信息处理。国内外约有20个单位的语言信息处理系统采用了“现代汉语语法信息词典”中的词语分类体系,显示了这个体系的生命力。“现代汉语语法信息词典”的词语分类体系是以朱德熙先生倡导的“词组本位”语法体系为基础的,[5,6]并将依据语法功能进行分类的原则贯彻到分类体系建立和实际词语归类的全过程中。

      3.词类信息不能满足汉语信息处理的全部需要。尽管词类信息浓缩了词语的大量语法信息,[9]但由于自然语言的复杂性和模糊性,在任何一种实际可行的分类体系中,既有属于同一类的词语有不同属性的情况,也有属于不同类的词语有某些相同属性的情况,因此仅仅利用词类信息是不可能消解汉语语句剖析过程中可能出现的歧义结构的。新发展的计算语言学理论要求采用复杂特征集描述词语的特征属性。[10]语法属性是最重要的一部分特征属性。“现代汉语语法信息词典”的研制正是为了适应这种需要。按照“现代汉语语法信息词典”规定的关于信息量的计算方法,[4]目前词典所包含的总信息量达250万,词类信息只有5万,只占总信息量的百分之二。当然,这百分之二的信息的填写难度较大。

      二 现代汉语词语分类体系

      在朱德熙先生的语法理论的指导下,北京大学计算语言学研究所与中文系合作,在多项语言工程实践的基础上,经过几年的研究,于90年代初提出了一个面向语言信息处理的现代汉语词语分类体系,简介如下:

      现代汉语词分为以下18个基本词类

      名 词:马、苹果、水泥、编辑、战争、红色、北京

      状态词:雪白、通红、泪汪汪、满满当当、灰不溜秋、沉甸甸、光秃秃

      时间词:昨天、元旦、宋朝、现在、夏天

      处所词:空中、地上、江南、门口、乡下、心中

      副 词:白、不、很、都、刚刚、难道、忽然、自动

      方位词:上、下前、后、东、西、里面、外头、中间

      介 词:把、被、对于、关于、按照、依据

      数 词:一、第一、千、零、很多、百万

      连 词:和、与、或、虽然、但是、不但、而且

      量 词:个、群、公斤、盘、片、种、些、平方米、公顷

      助 词:了、着、过、的、所、似的

      区别词:男、女、金、银、微型、高等、自动、慢性

      语气词:吗、呢、吧、嘛、啦、呗、啊、呀

      代 词:你、我们、这、那么、哪儿、谁、怎么样

      拟声词:叮咚、啪、叮呤啷、哗啦、哇、嗡嗡

      动 词:编辑、休息、喜欢、能够、打仗、是、调查、繁荣

      叹 词:唉、喔、哎哟、嗯、啊、哦、呃

      形容词:白、红、老、温柔、高级、突然、繁荣

      此外,从计算机处理实际文本的需要出发,从提高计算机处理效率的角度考虑,“现代汉语语法信息词典”还包含了以下7类不能看作“词”的语言成分。

      前接成分:阿、老、非、超小

      后接成分:子、性、员、们、家

      习 用 语:跑龙套、光杆司令、磨嘴皮、木头疙瘩、正儿八经

      语素:民、衣、失、郝、物

      非语素字:蟋、枇、鸯、葡、萝

      简称略词:三好、政协、北大、幼教、足协

      成语:胸有成竹、八拜之交、百折不挠、不堪一击、齐心协力

      前4类是比“词”更小的单位,这些成分的数量有限,只要语言信息处理系统的规模允许,应当尽可能地将这些成分全部收入词典。后3类是比“词”更大的单位,词典中只能收一部分使用频率高的。“现代汉语语法信息词典”将以上25类语言成分笼统地叫做“词语”。

      本文的重点就是讨论在将电子词典中的5万多词语分别归入到这25个类别中去的过程中所出现的问题及其处理策略。

      三 归类的困难与对策

      1.分类的依据是什么?“战争”和“打仗”指的是同一个概念,为什么“战争”划归名词,而“打仗”却划归动词?同样,为什么“高级”划归形容词,而“高等”又算区别词?为什么“突然”是形容词,而“忽然”是副词?为什么“红、红色、通红”分别划归形容词、名词和状态词?从这些实例可以悟出不是依据词的意义而是依据词的语法功能在划分词类。所谓词的语法功能,概括地讲是指在一定的语料范畴内词在句法结构中的位置和分布,具体地讲是指(a)词在句法结构中充当句法成分的能力;(b)词与某类词或某些词组合成短语的能力。“战争”在句法结构中通常担任主宾语而不担任谓语,因此划归名词;“打仗”因其主要功能是作谓语而划归动词。“高级”“突然”‘‘红”都可以作谓语,且可以受“很”一类副词修饰,因此都划归形容词。“高等”只能作定语,“忽然”只能作状语,因而分别划归区别词和副词。“红色”是名词,“通红”虽然像“红”一样可以作谓语,但与“红”的语法功能差别较大,宜归入状态词。关于各类词语的语法功能特点以及划类标准,很多论著都有详细的论述。这些论述自然成为各个词类系统进行词语归类的指导原则。不过,实际工作时,研制者的“语感”或隐或现地也起作用。胡明扬先生对此有精辟的见解。[7]因此,研制者不仅要努力掌握容易操作的形式标准,更要注意积累对语言的内在规律的感性知识,这种感性知识包括对每个词语的语法功能的认识与运用。

相关文章: