汉语信息处理中单字的构词方式与合成词的识别和理解

作 者:

作者简介:
傅爱平,女,中国社会科学院语言研究所研究员,主要从事应用语言学研究。 中国社会科学院语言研究所 北京 100732

原文出处:
语言文字应用

内容提要:

本文提出了汉语信息处理中关于单字构词方式的基本问题,考察了目前对于这个问题的研究和应用情况。认为现有的统计性结论在未登录词处理中对于揭示单字构词的规律缺乏有效的作用。究其原因,一是这些结论体现的是词素组合成词之后的结构性质,而不是组合过程中的规律;二是这些调查统计遵循以句法为本的观点,而合成词的结构方式主要是意合。按照意合的构词观点,词素组合成词的过程要受多种语言要素和非语言因素的制约。目前还只能运用不完备的构词知识识别未登录词。文章最后给出了一组构词规则的工程化应用实例。


期刊代号:H1
分类名称:语言文字学
复印期号:2004 年 02 期

字号:

      一 汉语信息处理中单字构词的基本问题

      在汉语文本自动分析和理解系统中,“词处理”是一个基础环节。所谓“词处理”,是指在连续的汉字字符串中识别词语,并获取这些词语的语言学信息和统计学信息,譬如:语法属性、语义属性、用法信息等,这些信息是系统下一步分析和理解语句的必要基础。我们把计算机获取这些必要的信息称为对词语的理解。这样,“词处理”的任务就是识别和理解语句中的词语。典型的“词处理”任务通常由自动分词系统承担。在分词底表的支持下,可以根据确定的算法对没有切分歧义的词语进行识别和理解,系统实现起来也并不困难。所以自动分词研究的难点是如何处理切分歧义和未登录词语。未登录词语包括专有名词和普通词语,本文讨论的是后者。处理未登录词的主要目标有两个,一是判断某个字串是不是底表之外的新词,二是如果是新词,推测它的词义和词性。

      语言的词汇系统在不断地变化和发展,汉语中未登录词的数目是无限的。但汉语中作为构词基本部件的单字(注:严格说应该是“单音节语素”。考虑到汉语信息系统的处理对象,本文用“单字”。),在数量上却是有限的,在表义功能上是相对稳定的。使用汉语的人用组字成词的方式创造新词。根据这样的认知途径,汉语信息处理系统把单字作为基本资源,寻找它们组合成词的规律,用来识别和理解未登录词。由于识别和理解的依据是单字的属性,所以单字的构词规律就成为汉语信息处理中引人关注的问题。

      为了方便后面的讨论,我们在正文里把组成合成词的单字叫做词素,并且把讨论限制在双字组合的范围内(注:双字组合在现代汉语词汇中占绝对多数。据周荐(1999)统计,在《现代汉语词典》所收条目中,双字组合占收条总数的67.625%。据我们对《信息处理用现代汉语分词词表》扩充表的统计,双字组合占60%)。和任何一种语言结构单位一样,由词素组合而成的词,其结构方式可以从两个方面考察:一是结构成分,二是结构关系。前者指词素的语法性类或语义类别、语义特征等属性,后者指词素组合成词时这些属性之间的关系。在汉语信息处理中,从识别和理解合成词的需要来看,关于合成词的结构方式,我们关心的是以下几个基本问题:

      1)用哪些语法性类、语义类别或特征能够概括词素在组合成词时的各种情况?

      2)词素之间能否搭配组合成词的选择条件是什么?

      3)组合成词的词素之间,顺序关系是什么?

      4)词素组合成词时的结构方式是什么(是意义结构关系还是句法结构关系)?

      5)合成词的词义与词素意义的关系是什么?

         6)合成词的词性与词素的性类有没有关系?

      其中问题1关系到词素有哪些属性在组合成词时起作用,在汉语信息处理系统中,这些属性应该得到充分的描述,并作为识别和理解合成词的初始信息。问题2关心的是在众多词素当中,哪两个词素能够组合成符合汉语习惯和语感的词,或者哪两个词素不能组合成这样的词。问题3是说如果两个词素可以组合成词,那么谁该在前谁该在后?显然与问题2和3有关的各种因素也应该纳入问题1的范围。如果说前三个基本问题主要与合成词的识别有关,那么问题5和6就关系到合成词的理解。即,可否根据词素的意义和性类得到合成词的词义和词性?这是处理未登录词的主要目标之一。问题4概括了其他几个问题,我们把它看作研究构词规律的基本观点。

      了解了这六个基本问题,计算机才有能力根据有限的词素去识别和理解任意的词语,或者更进一步,按预定的意义生成恰当的词语。这是在汉语信息处理领域里研究单字构词、或者叫语素构词问题的直接动因。

      二 汉语信息处理中的构词研究及其应用

      目前汉语信息处理领域里与词素构词研究有关的工作主要集中在三个方面。一是语言资 源的建设;二是构词规律的统计和研究;三是在识别和理解未登录词语的工程实践中的应用。

      (一)语言资源的建设

       在这方面有代表性的是汉语语素数据库(苑春法等,1998;俞士汶等,2003)。语素数据库的登录项一般以“国标GB-2312”的6763个汉字为基础收集,并为每个语素标注如下属性:语素义、语法性类、成词与否(成词、半成词、不成词)、构词位置(前位、后位、不定位等)、特定构词项目等。为了研究语素构词的规律,有的数据库还收录了由已登录语素构成的二字词、三字词和四字词,并标注了它们的读音、语法性类、构词方式(主谓、偏正、述宾、述补等)、类序:(a+n、v+n等)、多义与否和字义组合方式。

      类似的资源还有“汉字义类信息库”(亢世勇等,2001),也是基于“国标GB-2312”收录汉字条目,标注了读音、义项、同音、同形、语义类别、词性、成词与否等属性。与上述语素数据库相比,它的特点之一是按照《同义词词林》的分类体系标注语义类别属性,这样就把每个汉字的每一个意义都纳入了一个层级结构里面,可以体现单字意义之间的同义、反义关系和上下位关系。

      这些资源建设的目的有两个,一个是为汉语信息处理提供初始信息(各种词法、语法、语义属性),另一个是获取与构词规律有关的统计数据。譬如,以“汉语语素数据库”为基础,用语法性类作为词素的基本属性,统计了在全部词素中各种性类的分布:名词性词素占46.7%,动词性词素占31.4%,形容词性词素占12.7%,等等(注:尹斌庸(1984)也曾做过统计,处理的语素集合有所不同,统计的结果也有些差别。)(苑春法等,1998)。这些数据能够帮助我们从语法因素的角度对汉语的构词部件有一个宏观的把握。但是对于词素构词这个目标来说,与其说这些统计数字对揭示构词规律有直接的作用,倒不如认为它们实际上体现了一种思路,这就是用语法因素作为词素的基本属性来概括词素组合成词的各种情况。这种思路来自如下关于构词方式的基本观点:合成词的词素之间是句法结构关系。

相关文章: