机用现代汉语“n+n”结构歧义研究

作 者:

作者简介:
杨泉,北京广播学院博士研究生。(北京 100024);   冯志伟,教育部语言文字应用研究所研究员、博士生导师。(北京 100010)

原文出处:
语言研究

内容提要:

本文在潜在歧义理论的基础上,重点分析其中两个名词的语法、语义、语用特性,对汉语中的“n+n”结构做了比较全面的研究。目的在于找到这种结构产生歧义的原因和消解歧义的策略。


期刊代号:H1
分类名称:语言文字学
复印期号:2006 年 03 期

字号:

      人们对歧义现象的关注早在两千三百年前就开始了,古希腊哲学家亚里士多德(Aristoteles)在他的《工具论·辨谬篇》中,探讨了自然语言的歧义问题, 但亚里士多德对歧义的研究是为哲学辩论中的语言应用服务的。 1930年,恩普森( W.Empson)发表了《歧义的七种类型》(Seven Types of Ambiguity)一书, 正式开始从语言理论的角度研究歧义问题。而在人们对自然语言进行信息处理后,更关注的是如何让计算机自动消歧。1963年,Katzt和Fodor首先提出利用语义选择限制(注:选择限制是一种利用语义消解歧义的方法。它规定可共现语义是合法组合,而剖析过程中产生的不合法表达式要被排除掉。) 的方法去消解歧义,从此,利用语义特征不同形式的各种研究方法几乎被用在每个计算模型的消歧上。1975年威尔克斯(Wilks)最先成为优选语义学的拥护者,他发明了一个利用语义模板去解释句子表达的系统。Hayes(1977)与Hirst(1987)运用选择限制和语义近似度相结合的办法处理多义词消歧问题。1983年Dyer发明BORIS系统,这个系统利用自顶向下预测与选择限制相结合的方法去理解复杂文本,取得了很好的效果。1986年Quillian引进自然语言的语义网络来表达词义以及词与词之间的概念关联。1990年Miller构造了一个英语综合词汇的知识库——Wordnet,它是当代概念语义网络研究的一个主要成果,对自然语言计算过程中的歧义问题研究很有价值[1]p293—325。

      国内对汉语歧义研究主要集中在歧义分类、歧义成因、歧义格式、歧义界定、歧义分化、消歧手段、歧义指数、意义优选和歧义度。语言学界研究歧义主要是为了找出人与人在交际过程中产生歧义的原因及全部类型。而计算语言学家的任务则是在语言学家研究成果的基础上,考察机器在处理自然语言的过程中所遇到的歧义,包括多义词义项选择,歧义字段切分,歧义格式分化等。目的是为了找到消解歧义的策略。

      一 理论基础

       冯志伟在研究汉语术语歧义问题时, 提出“潜在歧义理论”( Potentional Ambiguity,简称PA论)[2],PA论认为,中文词组型科技术语中,当一个PT 结构(词组类型结构)对应于一个以上的SF-结构(句法功能结构)时,就有可能对这个PT-结构做出一种以上不同的解释,这时,就说这个PT-结构是潜在歧义结构,之所以说是“潜在歧义”,是因为在PT-结构实例化(instantiation)的过程中,这种歧义有可能继续保持,成为真歧义结构,也有可能得到消除,成为歧义消解结构,因而这种歧义是潜在的而不是现实的,它只具有了歧义的可能性,但是还不一定具有歧义的现实性。

      冯志伟后来在《论歧义结构的潜在性》一文中,将这种为分析汉语科技术语而提出的潜在歧义论用来解释日常语言中的歧义现象[3]。 证明了尽管在自然语言中存在大量的同形歧义结构,但是,它们的PT-结构都是潜在歧义结构。自然语言有其歧义性(ambiguousness)的一面,也有其非歧义性(non-ambiguousness)的一面。自然语言中这种存在潜在歧义有时又能够自行消解的现象正是歧义性和非歧义性对立统一规律的体现。这说明潜在歧义结构本身就包含了消解歧义的因素,仔细研究这些潜在歧义结构本身,就不难发现可供计算机自动消解歧义的办法。

      詹卫东等对汉语短语结构的定界歧义做了全面考察,并对汉语短语结构定界歧义的不同类型进行了初步统计[4]。从模式歧义和实例歧义对应关系的角度将歧义格式分为真歧义格式、准歧义格式、伪歧义格式三种。其实从这个角度对歧义格式进行分类是在冯志伟有关潜在歧义格式的基础上进一步深入分析得到的结果。其中的“真歧义格式”就是冯志伟提出的“潜在歧义格式”,由于这种格式对计算机处理真实文本而言,确实都存在歧义,因此,我们认同这种说法。

      我们认为“真歧义格式”(或称真歧义结构)是指具有潜在歧义的抽象句法格式,其结构项包括常项和变项,常项是具体词语,变项是词类或句法成分类。需要说明的一点是,这种格式中的歧义与同形异义词中的歧义有所不同。歧义格式中歧义的产生是由于词与词之间在搭配时可能产生的不同结构层次、语法关系或语义关系引起的,机器在识别这些结构时,我们假定组成它们的词的词性和意义已被计算机正确选择。对实例化后的真歧义短语我们又从潜在歧义是否现实化的角度分为两种类型:

      (1)格式真歧义短语 一种类型的PT-结构可能对应两种或两种以上不同的SF-结构,每一种PT-结构实例化后都会产生很多不同的短语,每一个短语可能会对应一种或几种不同的SF-结构一个格式真歧义短语只对应一个SF-结构。每个PT-结构对于计算机来说都是一种类型,这种只在类型上对机器产生歧义的短语,我们称之为格式真歧义短语。它的特点是对机器来说有歧义,对人而言歧义消失。但每个格式真歧义短语对应的SF-结构可能会不尽想同,这时PT-结构对计算机来说就是存在歧义的结构。

      举例来说,“v+nl+的+n2”这个结构有两种组合方式:

      A.[v[nl 的n2]] B.[[v nl 的]n2]

相关文章: