汉语动宾搭配自动识别研究

作 者:
王霞 

作者简介:
中山大学国际交流学院 广州 510275 王霞,中山大学国际交流学院教师,从事对外汉语教学和中文信息处理研究。

原文出处:
语言文字应用

内容提要:

搭配是一种词与词之间的组合关系,搭配的自动提取,是自动句法分析的重要环节, 同时也是重要的知识来源。本文在分析搭配性质的基础上提出了一个基于统计的动宾搭 配自动识别的算法。我们从经过了人工标注的50万词的训练语料中获取数据,并把所获 数据用于自动识别。封闭测试和开放测试的正确率分别是94.7%和81.2%。实验结果表明 ,从训练语料中获取的数据可以比较有效地用于自动识别,本文选取的四项指标也是自 动识别比较合适的统计量。


期刊代号:H1
分类名称:语言文字学
复印期号:2005 年 06 期

字号:

      [中图分类号]H08 [文献标识码]A [文章编号]1003-5397(2005)01-0137-07

      一 引言

      (一)研究目标的确定

      本文的研究目标是:对一个经过分词和词性标注处理的汉语句子,通过自动分析确定 句子中动词的宾语,即识别汉语文本中的动宾搭配。本文所指的动宾搭配,是指只带一 个体词性宾语的动词和在句子中位于其后的体词之间构成的述宾关系。例如:

      现在/t 大陆/nps 确立/vgn 了/utl [建立]/vgn 社会主义/ng 市场/ng 经济/ ng 体制/ng 的/usde 改革/vgp 目标/ng 。/。

      当前动词为“建立”,我们的目标是找出它的宾语“体制”。因为我们的主要目标是 从文本中抽取词语的搭配知识,而不是进行句法分析,所以,当动词的宾语是一个复杂 的名词性短语时,我们只找出其中心词,而不是整个短语。

      就处理范围而言,我们并不是面向全部动宾搭配。从动词来看,我们只考虑了体宾动 词。这样的选择是因为:体宾动词在动词中占绝大多数。从词语搭配的角度看,动词和 名词之间的搭配是最重要的。从宾语来看,我们所说的宾语仅限于真宾语。

      (二)研究价值

      1.为建立词语搭配知识库提供有效工具

      词语搭配是十分重要的语言知识。由于这样的搭配在使用上习惯性很强,规律性相对 较弱,用规则难以概括。倘若建立词语搭配知识库,收录从真实文本中提取的词语搭配 ,就可以为自然语言处理和语言教学提供重要的知识来源。

      2.为关于动词的句法研究提供工具

      动词和动词性结构是语言研究中的核心问题之一。而研究动词,可以就动词本身研究 动词,但更重要的是研究句子里边的动词和有关成分,主要是名词成分的关系。建立动 名搭配知识库,可以为研究动词和名词的组合关系提供定量分析的数据。

      3.为句法分析提供有用的信息

      搭配提取是句法分析的关键环节,动宾搭配是句内的核心成分,是整个句子的轮廓。 假如能准确识别出动宾结构,我们就有可能为实现完全的句法分析奠定一定的研究基础 。

      (三)相关研究综述

      对于什么是搭配,过去语言学家Choueka(1983),Church and Hanks(1989),Benson等 由于理论背景和应用目的的不同,存在着不同的理解。

      汉语的搭配提取,经历了从笼统的研究所有的搭配到分门别类地研究各种类型的搭配 的过程。

      孙茂松等《汉语搭配定量分析初探》提出了包括强度、离散度及尖峰三项统计指标在 内的搭配定量评估体系,并据之构造了相应的搭配判断算法。实验结果显示,就“能力 ”一词而言,算法自动发现搭配的准确率约为33.94%。

      孙宏林《从标准语料库中归纳语法规则:“V + N”序列实验分析》采用了规则和统计 相结合的方法——从大规模标注语料库中归纳语法规则,来识别动宾搭配。

      陈小荷《动宾组合的自动获取与标注》采用统计方法在语料中自动获取动宾组合实例 ,并将未经校对的搭配数据用于动宾结构的自动标注,以检测自动获取的数据价值。正 确率和召回率分别达到74.7%和76%。

      二 统计模型

      我们全面剖析了搭配的语音、语法和语义特征,并分析了一定数量的统计数据,在此 基础上构造了动宾搭配自动获取的统计计算模型,力图采用多项统计量,全面考虑搭配 的各项性质。我们选用的统计量有:VN结构概率、语义搭配概率、音节搭配概率和跨度 搭配概率。分别考查了搭配的重复出现性、语义约束、音节限制和结构性。

      (一)VN结构概率

      搭配的一个重要性质是构成搭配的词语在文本中经常共同出现(Benson 1985),但并不 是经常共现的词语就一定构成搭配关系。我们采用条件概率(Conditional Probability )来描述一个动词和一个名词共现时它们构成动宾关系的概率:P(Y|V,N)表示当(V,N )在一定范围内共现时(V,N)构成动宾关系的概率。我们可以根据极大似然估计(MLE)从 一个标注了动宾关系的语料库中估计这一概率值:

      

      其中,C(V,N,VO)表示(V,N)在语料中构成动宾关系的频次,C(V,N)表示(V,N)在 一定范围(本文中指一个小句,即由标点逗号、分号、冒号、句号、问号、感叹号将文 本分割成的句法单位)内共现的频次。

      公式(1)虽然能很好地描述一个动词和一个名词构成搭配的概率,但由于它依赖两个词 形的共现,所以在概率估计上会遇到严重的数据稀疏问题。我们解决这一问题的方法是 从基于具体词形的概率模型回退(back-off)到基于语义类的概率模型。

      

相关文章: