[中图分类号]H085 [文献标识码]A [文章编号]1003-5397(2005)01-0123-07
一 引言
歧义问题是语言学中的一个难点,也一直是自然语言理解和机器翻译中难以解决的问 题。1960年巴尔-希列尔(Bar-Hillel)就曾说过歧义是自然语言处理中的主要绊脚石。
事实上,虽然歧义在自然语言中普遍存在,真正影响到人们交流的情况却很少。这可 能是因为在交际过程中,人们总是可以根据一定的知识背景、文化常识,结合特定的上 下文和某些语法、语义特点,找出几个意义当中正确的一个。人类这种“与生俱来”的 本领恰恰是机器欠缺的,可是如果我们能将人类排除歧义的主要依据找到,通过一定的 算法教会计算机,似乎就应该可以帮助计算机解决自然语言处理过程中的歧义问题。
本文作者从这种思想出发,以“v + v”这种具有潜在歧义的结构为切入点,具体分析 每个“v + v”结构中其中两个动词的语法关系、语义属性,再结合具体的语境尽量提 出可供计算机自动消解歧义的规则,希望能为自然语言计算机处理过程中的歧义消解提 供一定的参考作用。
二 研究概况
人们对歧义现象的关注早在两千三百年前就开始了,古希腊哲学家亚里士多德(Aristo teles)在他的《工具论·辨谬篇》中探讨了自然语言的歧义问题,但亚里士多德对歧义 的研究是为哲学辩论中的语言应用服务的。1930年,恩普森(W.Empson)发表了《歧义的 七种类型》(Seven Types of Ambiguity)一书,正式开始从语言理论的角度研究歧义问 题。而在人们对自然语言进行信息处理后,更加重视如何让计算机自动消歧。学者们主 要是从消解词汇歧义和句法歧义两个方面着手进行研究。
词汇歧义是由于一词多类和一词多义产生的,1963年,Katzt和Fodor首先提出利用语 义选择限制(注:选择限制是一种利用语义消解歧义的方法。它规定可共现语义是合法 组合,而剖析过程中产生的不合法表达式要被排除掉。James Allen Natural Language Understanding P296。)的方法去消解歧义,从此,利用语义特征不同形式的各种研究 方法几乎被用在每个计算模型的消歧上。
句法歧义是由于结构成分之间可能产生多种层次或关系而产生的。人们最开始用ATN分 析器去分析一个句子时,在遇到两条可选路径时,它会随机选择一个,如果这条路径成 功了,它不会再回溯去测试另一条路径。可是没被选择的路径也可能成功地分析一个句 子,这个随机的选择结果就导致了盲目消歧。
1972年Woods,Kaplan,Nash-Webber制作了LUNAR系统,他们在ATN分析结果的结尾处加 上一个语义检测器,当这个检测器发现分析在语义上有问题时,它会像发现语法错误一 样回溯并尝试另一条路径。这个分析器主要采用选择限制的方法。可是Marcus指出语义 检测器还不能解决所有问题,因为它不能作出比较判断,它会接受第一个具有最小可能 的结果,但它所拒绝的那些分析可能会产生更好的结果。
1979年Boguraev以ATN为基础的消歧系统包含了主动消歧策略和被动消歧策略。主动消 歧策略是利用一部分句子结构及一些多余的词项或短语去尝试建立合法的结构;被动消 歧策略是检测一个完整的结构在格框架、选择限制等方面是否在语义上一致。这个系统 避免了盲目的非确定性,减少了回溯,保证了相同的错误不会重犯。它可以区分关系从 句和动词补语,也可以用来确定介词结构的附着问题。
1980年Marcus的Parsifal分析器是不可回溯的,当产生结构歧义时它会检测并立即作 出决定,这种选择将是最终的结果。在Marcus的Parsifal分析器中,利用语义引导分析 有三种不同的方法:绝对的选择限制,利用语义寻找空位,依靠语义比较判定。
国内对汉语歧义的研究主要集中在歧义分类、歧义成因、歧义格式、歧义界定、歧义 分化、消歧手段、歧义指数、意义优选和歧义度。语言学界研究歧义主要是为了找出人 与人在交际过程中产生歧义的原因及全部类型;而计算语言学专家的任务则是在语言学 专家研究成果的基础上,考察机器在处理自然语言的过程中所遇到的歧义,包括多义词 义项选择、歧义字段切分、歧义格式分化等。对句法结构的消歧,国内计算语言学界的 学者大都是从微观入手,研究个别歧义结构的语法、语义现象,我们的目的是尽量了解 和把握汉语全部歧义结构的概况,针对每种歧义结构提出消歧策略。
三 理论基础
朱德熙先生(1980)从理论上概括了语言中歧义格式的类型,明确提出“歧义格式”这 个概念。他认为,句子的歧义“是代表了这些句子的抽象的‘句式’所固有的”,因此 ,他主张用“歧义格式”来概括语言中的同形歧义格式。
冯志伟在研究汉语术语歧义问题时,提出“潜在歧义理论”(Potentional Ambiguity ,简称PA论)(注:冯志伟《中文科技的结构描述和潜在歧义》,《中文信息学报》1989 年第2期。)。PA论认为,中文词组型科技术语中,当一个PT-结构(词组类型结构)对应 于一个以上的SF-结构(句法功能结构)时,就有可能对这个PT-结构作出一种以上不同的 解释,这时,就说这个PT-结构是潜在歧义结构,之所以说是“潜在歧义”,是因为在P T-结构实例化(instantiation)的过程中,这种歧义有可能继续保持,成为真歧义结构 ,也有可能得到消除,成为歧义消解结构,因而这种歧义是潜在的而不是现实的,它只 是具有了歧义的可能性,但是还不一定具有歧义的现实性。