中心理论和回指解析计算法

作 者:

作者简介:
作者单位:广东外语外贸大学外国语言学及应用语言学研究中心。(广东 广州 510420)

原文出处:
外语学刊

内容提要:

本文评述国外学者B.J.Grosz等人(1983,1995)的“中心理论”和建基于该理论的自然语言回指解析计算法研究。文章包括三个方面的主体内容:首先说明回指解析步骤;接着讨论“中心理论”的主要内容及其形式机制;然后概述以该理论为基础的两项自然语言回指解析计算法研究,并介绍有关计算法的测试评价研究。本文对我国从事语言学和计算语言学研究的人员,具有一定的参考价值。


期刊代号:H1
分类名称:语言文字学
复印期号:2006 年 02 期

字号:

      1 引言

      本文所讨论的“回指解析”(anaphora resolution),指计算机对自然语言的回指语(anaphor)(最主要是代词)的自动化解读,即,电脑通过运行研究者所设计的计算程序或方案成功地检索出代词的先行语(antecedent)。回指解析是一项富有意义的工程,对包括机器翻译(MT)、自动文本概要(automatic abstracting)、信息提取(info extraction)在内的许多自然语言处理应用起着必不可少的作用。自然语言回指解析研究在国外已进行了很长时间,研究成果斐然可观。本文专门介绍“中心理论”及以此为基础的回指解析计算法研究,以资国内从事语言学和计算语言学研究的人员参考。

      2 回指解析过程

      在讨论“中心理论”和建基于该理论的回指解析计算法之前,首先对回指解析过程作一简述。自动化回指(语)解析一般分为如下三个步骤。

      第一步:识别回指语与非回指语。代词解析过程中惟有回指性代词才需进一步解析,所以计算系统得辨别出如例①的冗余或赘性(pleonestic)" it" ——这种it无回指功用:

      ①It must be stated that Oskar behaved impeccably.

      因而,每个it都得逐一核查,对其性质作出判定(关于鉴别赘性it的几种计算法,参考R.Evens 2001:45—57,S.Lappin & H.Leass 1994:536— 61)。

      回指性名词的检索、识别更复杂。有定名词语很可能是回指性的,它通常回指前面的名词短语,如例②的the Queen回指Queen Elizabeth。但不能说凡有定名词语一定属回指语:“类指”和“独指”名词语就不能算作语篇回指语,如例③的the Duchess Of York并不回指the Queen。

      ②Queen Elizabeth attended the ceremony.The Queen delivered a speech.

      ③The Queen,attended the ceremony.The Duchess of York was there too.

      因此,识别非回指的有定名词语也是回指解析程序的重要环节。(有关辨别非回指性有定名词语的计算法,可参看D.Bean & E.Riloff 1999:373—80,R.Vieira & M.Poesio 2000:525—79)

      第二步:检索先行语候选项。系统一旦搜索到回指语,就要辨别其先行语的待释候选项。先行语检索范围或规模因回指语类型可大可小。回指关系经常维系在一定语篇片段内,所以检索范围一般限定在回指语的当前语段/语篇之内。回指解析系统在无法判定语篇段落界限时,通常将搜索范围定为当前语句再加n个先前语句,n的数量取决于回指语类型。代词回指语先行语检索范围一般以当前句外加2—3个先前语句为限;有定名词短语在语篇的回指距离更远,其先行语检索范围通常可大些。

      第三步:从先行语候选项集合中选择先行语。先行语候选项划定之后,系统将从已检索到的候选项集合中选择先行语,最终使回指(语)得以解析。根据不同知识来源制定并用于回指解析计算的规则,通常被称为回指解析“元素/因素”(factors)(R.Mitkov 2002:41)。这些因素可能是用于滤除潜在候选项集合中某些候选项的“限制条件”(constraints),也可能是一套“优先/优惠条件(策略)”(preferences),用以支援某些候选项。限制条件是强制性的:对回指语和先行语间的关系作出硬性限定,其强制力表现在扣除满足限制条件的候选项,但不提出任何候选项。回指解析主要的限制条件包括(ⅰ)性数一致规则、(ⅱ)成分统制(c-统制)制约(L.Haegeman 1994:198; R.Mitkov 2002:58):非代词性NP(名词短语)不能与成分统制它的NP同指、(ⅲ)词汇选择制约。优先条件是非强制性条件,可能提供候选项。主要的优先条件或策略有(ⅰ)临近性(recency):最贴近回指语的候选项更有可能成为先行语、(ⅱ)中心优先(详见下文讨论):上一句的中心成分作先行语的可能最大、(ⅲ)句法平行:跟回指语句法功用相对应的候选项更可能最终成为先行语。

      试举一例对回指解析计算过程作一解释,其中涉及的计算规则包括“性数一致”、“c-统领”和“中心优先”。

      ④How poignant that one of the television tributes paid to Jill Dando shows her interviewing people just before the funeral of Diana Princess of Wales.Some of the words she used to describe the late princess could equally have applied to her.(The Mirror 30/4 1999,引自R.Mitkov 2002:45)

相关文章: