计算机句法结构分析需要什么样的词类知识  

作 者:

作者简介:
詹卫东,北京大学中文系,E-mail:zwd@pku.edu.cn。

原文出处:
中国语文

内容提要:

本文从计算机自动句法分析的角度来审视汉语词类问题,主要观点是:(一)过分强调“分布”与“分类”的严格对应关系,并不是正确的词类观,其负面作用是造成汉语词类的“不可承受之重”。(二)计算机自动句法分析要求对词语的分布特征进行非常细致的刻画。确定“词类”是为了描写词语的分布特点,但词语的分布特点并不都是靠“词类”来反映的。依靠“属性特征”描述手段,可以灵活且更细致地描述词语的分布特点。(三)现有的词语语法信息知识库主要是在两两组合的结构框架中描写词语的分布特点,而计算机自动句法分析需要在更复杂的“树”结构框架中描写词语的分布特点,即计算机自动句法分析需要颗粒度更细的词语分布知识。此外,关于词语的分布知识,还需要拓展到每个词语对其组合对象的选择限制的描述。


期刊代号:H1
分类名称:语言文字学
复印期号:2013 年 07 期

字号:

      近年来,汉语语法学界对现有的汉语词类体系做了很多有益的思考和讨论,形成了一些关于汉语词类的新的认识,如沈家煊(2007,2009)。在操作层面也提出了一些判定词语词类归属的新的方法,如袁毓林等(2009)。中文信息处理界结合对大规模真实语料进行词性标注的语言工程实践,对目前的主流汉语词类体系进行了深入反思,如宋柔(2003,2009),宋柔、邢富坤(2009),黄昌宁等(2009),黄昌宁、李玉梅(2009)。本文对这些代表性观点和做法以及这些观点和做法背后的词类观念进行分析(见第1、2节),并尝试从中文信息处理中自动句法结构分析的需要出发,探讨在挖掘汉语的词类知识时应该加强研究哪些方面的问题(见第3节)。

      1.当前学界关于汉语词类问题讨论中的若干代表性意见

      本节概述当前学界关于汉语词类问题的讨论中有代表性的意见。虽然对汉语词类问题进行研究的文献以及相关的研究成果远不止这里提及的,但限于篇幅,本文只能有选择地加以介绍和分析。下面的述评涉及四个有代表性的研究。其中前两个从中文信息处理的角度讨论汉语的词类问题,后两个是语言学界在汉语词类问题上新的代表性研究成果。

      1.1宋柔(2003,2009)及宋柔、邢富坤(2009)的看法

      宋柔对北京大学词类体系(下称“北大词类体系”)进行了深入的分析,指出了其中有关兼类处理上的两个重大问题:

      问题一:兼类中有逻辑错误。具体是指,北大词类体系对区别词和副词的定义造成不可能有一个词兼属区别词和副词。区别词的定义是“只能在名词或助词‘的’前边出现的粘着词”。副词的定义是“只能充任状语的虚词”①。按照这个定义,区别词跟副词是互斥的,不可能有交集,也就不可能存在一个词,既是区别词,又是副词。说“自动、长期”这样的词,兼属区别词和副词②,逻辑上是不成立的。

      问题二:兼类中有概念混乱。具体是指,一个词c的词类是根据c的所有分布得到的结果。如果c兼属A类和B类,那么,对于c在实际使用时的任何一次出现,即c在语料库中的每一个词例(token),c的词性(词类属性)仍然是兼属A类和B类,不能根据c的上下文环境来定标记,即c在某种环境下是A类,在另一种环境下是B类。如果这样的话,A和B就成了句法角色标记而不是词类标记了,词性标注也就变成了句法角色标注了。

      我们的看法是:宋文指出的上述两个问题对深入认识汉语词类问题很有启发,但所指出的问题在语言工程实践中并没有那么严重,甚至在深入分析后可能会发现它们并不成为真正的问题(参看詹卫东,2009)。下面分别展开说明我们对这两个问题的分析。

      我们对于问题一的思考:

      1)人们对兼类词的认识有一个“时间先后”的观念在里面。一个词c要先判断它属于区别词,再判断它属于副词,然后才说它兼属区别词和副词。这种看法当然不错。不过,也可以不持这种有“时间先后”的“兼类”观念,而把“区别词跟副词兼类”看作是跟区别词和副词并立的第三种词类。这样,一个词兼属区别词和副词,就不能单独说它属于区别词,也不能单独说它属于副词。比如“自动”就是兼区别词和副词,不能只说“自动”是区别词,或者只说“自动”是副词(参看张化瑞,2009)。

      2)上面这种说法给人的感觉有点像文字游戏或者诡辩。不过,这个诡辩放在汉语词类划分的语境中却有其内在道理。因为这样处理的实质是清楚地说明了“自动”的分布特点:既可以做定语,也可以做状语——而这正是我们描述一个词的词类归属的初衷。从定义的逻辑严密性角度讲,朱德熙(1982)有关区别词和副词的定义确实有逻辑错误,但从划分词类的目的角度讲,这个“逻辑错误”并不带来应用上的任何问题,它“止步于”定义的表述层面③。

      我们对于问题二的思考:

      1)词典中标记一个词(词型/type)c的词性,是概括说明c的所有可能的分布。在语料库中标记一个词(词例/token)c的词性,是标记c在当前环境中实现了它所有可能的分布中哪个具体的分布。

      2)在上面这个表述中,“分布”也可以换成“功能”或“句法角色”,在这个语境中,这三个词可以看做是同义语。词典中给出一个词c的词性,是综合说明它所有可能的句法角色,在语料库中标记c的词性,则是说明它在当前位置具体充当什么句法角色。在语料中标词性的目的就是说明词当前所起的具体句法功能(或扮演的句法角色)。

      对于词典中的多标记词(兼类词),在语料中标注其具体语境中的词性显然是有价值的。比如,如果在词典中把“畅销”的词类定为v和a,即认为“畅销”兼属v和a两类,就意味着我们认为“畅销”可以分布在谓语、述语等位置,同时还可以在“不”、“很”的后面位置上。这些句法位置实际上可以分为三类:(Ⅰ)“很”后面的位置是形容词位置;(Ⅱ)述语位置是动词位置;(Ⅲ)谓语位置和“不”后面的位置,是形容词和动词都可以占据的位置。

      因此,在语料库标注中,当“畅销”出现在“很”的后面的时候,就标为a,出现在述语位置(如“畅销海内外”),就标为“v”,而出现在“这款车型畅销”这个环境中,则既可以标v,也可以标a。两种标法都是对的,或者说,标v和标a对自动句法分析的贡献是相同的。当出现在“畅销车型”这个环境中,标v和a理论上也都可以,但标a可能更好,理由是:基于目前主流的汉语规则体系,标v提供的句法角色信息不够清楚,v这个词类在“v+n”语境中包含了做“述语”和做“定语”两种可能性,而标a则意味着这里的“畅销”只有充当定语角色的可能性,因此,标a对句法分析的贡献更大④。

相关文章: