“把…HVP”的计算分析

作 者:

作者简介:
陈小荷,男,1952年生,江西人。现为南京师范大学文学院教授,语言学及应用语言学专业博士生导师。主要研究兴趣是中文信息处理,特别是汉语句法的自动分析。出版专著《现代汉语自动分析—Visual C++实现》,译著《语言研究中的统计方法》(合作)。

原文出处:
世界汉语教学

内容提要:

本文报告了对“把”字结构中的核心动词短语(HVP )进行自动分析的实验。在对输入语料做了自动分词但未标注词性的条件下,试图标出每个介词“把”后边的HVP。分析方法是基于语言知识的, 以我们对核心动词短语的分类为指导思想,以包含较丰富的语法信息的专用动词词表为支撑,同时也利用了从训练语料中获取的统计数据。实验结果是,开放测试的平均正确率达到93%。


期刊代号:H1
分类名称:语言文字学
复印期号:2002 年 06 期

字号:

      0 引言

      “把”字结构一直是现代汉语语法研究的一个热点,但从汉语信息处理的角度对“把”字结构进行专门研究的文献尚不多见。我们尝试用计算机分析“把”字结构,初始目标十分单纯,就是要标出每个介词“把”后边的核心动语短语(Head Verb Phrase,HVP),例如:

      ……而且把顾客的满意程度也[作为]一种重要标准。

      “那些把安眠药[卖给]中小学生吃的事呢?”

      其中黑体字部分是“把”字结构,方括号内是HVP。

      这不是对“把”字结构的全面分析,但的确是最重要的一步。标出HVP之后,可以向左搜索各种状语,逼近“把”的宾语的左边界, 向右搜索宾语和其他成分,得到整个“把”字结构的右边界。

      通常认为,“把”字句有四个特点:(一)谓语一般不能是光杆动词;(二)“把”的宾语一般是有定的;(三)谓语动词一般有“处置性”;(四)助动词、否定词一般不能放在“把”的宾语跟谓语动词之间。(注:参见黄伯荣(1997)。 )除第二个外, 其他三个特点都跟HVP有直接关系。如果能用计算机自动标注出HVP,我们就能对其特点进行定量分析,看所谓“一般”到底是多大的概率,并进一步研究“一般”之外有哪些隐蔽的规律。

      词语“配价”是汉语语法的一个新热点,就动词而言,不再局限于研究单个动词的配价。例如,王红旗(1995)、郭锐(1995)研究动结式述补结构的配价,王红旗(1998)研究动趋式述补结构的配价,范晓(1998)研究动介式组合体的配价。这些研究表明,动词跟动词短语在配价上明显不同, 动词短语的配价有一个“整合”过程。 郑定欧(1999)指出,“目前,越来越多的人认为事实上把字句的构造确实很难从动词类别去把握。这是因为以往的研究过分纠缠于语义的分类而忽略了必用的连带成分的组配特点。”从自动分析角度看,句法分析是配价分析的基础,计算机自动标注出来的HVP 恰好就是配价研究者感兴趣的动结式、动趋式、动介式等结构的丰富多样的实例。

      对于稍懂语法的人来说,HVP标注不成问题, 但对于计算机来说并非易事,因为它缺乏人类所具有的关于语言和客观世界的各种知识以及推理能力。严格地说,HVP的正确标注取决于对整个句子的完全的句法分析。(注:完全的句法分析是指对句子逐层分析,直到每个词。)但目前用计算机对汉语句子(尤其是真实文本中的句子)做完全的句法分析尚无可行性。退而求其次,可以进行骨架分析(skeleton parsing),得出句子的主要成分,或浅层分析(shallow parsing),例如提取句子中的名词短语。陈小荷(1997)用统计方法标注过真实文本中句子的核心谓词,其开放测试的正确率为90%左右,但所使用的是已标注词性且经人工校对的输入语料,语料代价高,标注算法对特定词性标记集有很强的依赖性。穗志方、俞士汶(1998)用骨架依存分析法识别汉语单句核心谓词,其正确率为87.3%,但输入语料不是真实文本,而且依赖于人工对齐的英语例句。

      本文所报告的“把…HVP”的分析有两个特点:第一, 输入语料是只做了自动分词但未做词性标注的真实文本,这种语料代价低廉,容易得到。第二,主要利用语言学知识,特别是有关“把”字结构的知识来进行分析,分析结果便于从语言学角度给予解释,统计方法在这里只起了辅助作用。

      1 所有资源

      我们使用的是1996年《人民日报》语料,约2500万字,得到1.9 万个含“把”字结构的句子。句子的平均长度是个36个词,句子越长,自动分析就越困难。语料中“把”字结构2万余个,平均每句1.06个。 众所周知,《人民日报》语料的题材、体裁丰富多样。从比例上看,主要反映当代书面汉语的面貌。

      1.1 词性问题

      句法分析之前要不要先做词性标注?我们权衡了一下利弊。对于“把…HVP”的分析来说,关键是HVP中的动词。如果语料已经标注词性,解决了许多兼类问题,句法分析会方便得多。但同时也对词性标注的质量提出了更高的要求,因为词性标注的错误会在句法分析中扩散,缺乏鲁棒性的分析器将难以从错误中恢复。(注:例如,“把自己圈在办公室里”,“圈”标成量词,“把…继续推向前进”,“推向”切为一个词,不见于词表,误猜为副词。 在这两种情况下, 都无法正确分析出HVP。)一般地说,自动词性标注的正确率可达95%左右, 当然这跟标记集的大小也有关系。汉语的动词是语法功能最多的词类,如果不管它出现在什么语法位置,统统标为V,标注错误的可能性就比较小。 但是,如果要用不同的标记区分它是及物动词、不及物动词、带体词性宾语的动词、带谓词性宾语的动词等等,甚至像北京语言文化大学现代汉语研究语料库那样标出它在当前句子中是否带了宾语、是否做了主语、是否做了偏正结构的中心语等等(孙宏林等,1997),标注错误的可能性就会大大增加。(注:虽然可以通过人工校对来减少词性标注错误,但几乎不可能完全消除错误。过多的人工干预代价高昂,无法满足处理大规模真实文本的需要。)另一方面,用小标记集虽然出错的可能性相对小一些,但对于“把…HVP”的分析来说,所提供的信息也较少, 因为显然不是任何动词都能出现在HVP之中的。

      1.2 更丰富的语法信息

      未经词性标注的语料如何做句法分析?这取决于所做的是什么样的句法分析。如果是完全的句法分析,就需要在句法分析过程中确定每个词的词性。骨架分析的任务比较单纯,无须准确地判断每一个词的词性,但对于某些关键词语,又需要有非常丰富的语法信息。 就“把…HVP”的分析而言,我们需要知道:

相关文章: