自然语言处理中的岐义消解方法*

作 者:

作者简介:
冯志伟 100010 语言文字应用研究所

原文出处:
语言文字应用

内容提要:


期刊代号:H1
分类名称:语言文字学
复印期号:1996 年 06 期

关 键 词:

字号:

      提要 比较了中文和英文在歧义现象上的异同,分析了基于“制约”的歧义消解方法和基于“优选”的歧义消解方法,指出了自然语言的歧义结构本身就包含了消解歧义的因素,认真地分析这些因素,可以为歧义消解提供有用的条件,这些条件包括再分类、句法制约条件、语义制约条件等。

      语言中的同形歧义既反映在单词上,又反映在由单词组成的各种结构上,形成词汇歧义(lexical ambiguity )和结构歧义(structuralambiguity)。

      打开任何一本英语词典,我们可以发现,许多单词都可能属于几个不同的词类。例如,order可作为名词N,其含义是“次序,顺序”,又可作为动词V,其含义是“整理,安排”;book可作为名词N,其含义是“书”,又可作为动词V,其含义是“预定”。 这就是英语中单词的兼类现象,兼类就是一种词汇歧义。英语的形态标志—s也有歧义, 如果加在名词之后,表示复数,如果加在动词之后,则表示现在时单数第三人称,这也是一种词汇歧义。如果单词X加上—er,形成“Xer”,也会产生歧义,有时其含义是“one that Xes”,有时是比较级。例如,clean(清洁的)加上—er形成cleaner,其含义可为“清洁器”,也可为“更干净”;smooth(平滑的)加上—er形成smoother,其含义可为“修光工具”,也可为“更光滑”。这也是一种词汇歧义。

      英语中的结构歧义,最常见的有如下三种:

      (1)在“VP+NP1+Prep+NP2 ”这样的结构中, 介词词组PP (Prep+NP2)既可以作为名词词组NP1的定语,又可以作为动词词组VP的状语,这就产生了歧义。

      例如,句子“I saw a boy with a telescope”中的PP “with atelescope”,当它作为NP1“a boy”的定语时, 句子的含义是“我看到了一个带着望远镜的男孩子”(试比较:“I lost the ticket toBerlin”〔我丢失了去柏林的车票〕);当它作为VP“saw ”的状语时, 句子的含义是“我用望远镜看见了一个男孩子”(试比较:“I send the ticket to Berlin”〔我往柏林寄出了车票〕)。

      (2)当若干个词与and连用时,由于and的管辖范围不同, 而影响到层次结构的不同。

      例如,短语“old men and women ”可解释为“年老的男人和所有的女人”,这时,层次结构为((old men)and women),and与old无关,也可解释为“所有年老的男人和所有年老的女人”,这时,层次结构为(old(men and women)),and与old有关。

      (3)当两个或两个以上的名词组成词组时, 对整个名词词组的含义往往可以作不同的解释,就会产生歧义。

      例如,由名词widget(作附件用的小机械)和名词hammer(锤子)组成的名词词组widget hammer,既可以理解为“widget used as hammer”(作锤子用的小机械),又可理解为“hammer for hitting widget”(锤击小机械的锤子),从而产生歧义; 如果在前面再加上一个名词town(城市),组成名词词组town widget hammer,其层次结构可分析为((town widget)hammer),又可分析为(town(widget hammer)),这样的名词词组的歧义就更为严重了。

      如果在一个英语句子中,既包含有“VP+NP1+Prep+NP2”这样的结构,其中的NP1或NP2又是由若干个名词组合而成的名词词组,并且还包含连接词and,那么,这个句子的歧义将成倍地增长, 其剖析的难度也就更大了。

      为了解决英语剖析中的同形歧义问题,美国计算语言学家马尔库斯(Marcus)提出了确定性剖析算法(determinism),这种算法主张, 在句子的剖析过程中,尽量不要在局部的歧义问题上纠缠,不要回溯,不要改变初衷,一定要不屈不挠地去找寻唯一正确的结构描述。学者们还提出了向前看(lookahead )的超前分析策略、 启发式分析策略(heuristics)、消移剖析算法(shift—reduce parsing algorithm )、线图剖析法(chart parser)等。可见,同形歧义确实是自然语言处理中的一个至关重要的问题。

      早在1959 年,赵元任教授就写了《汉语中的歧义问题》(Ambiguity in Chinese),这是我们见到的最早的一篇关于汉语歧义问题的理论探讨的专论。此后,朱德熙教授于1980年写过《汉语句法里的歧义现象》,从句法的角度研究汉语的歧义。同形歧义一直是我国语言学前辈关心的问题。

      汉语中的词汇歧义主要体现在多义词和兼类词上,多义词是具有一一个以上意义的词,兼类词是具有一个以上词类类别的词。关于这样的词汇歧义,我们将另文讨论,这里,我们主要讨论结构歧义问题。

      英语中第一种常见的结构歧义,即介词词组PP既作状语又作定语的那种歧义,汉语中并不多见。因为汉语的PP作定语时,一般置于名词词组之前,常加“的”,不易与作状语的PP相混。但是,在汉语的介词词组中,由于介词管辖范围的不同,却容易引起歧义。例如,

相关文章: