汉语代词所指研究的新设想

作 者:

作者简介:

原文出处:
浙江大学学报:社科版

内容提要:


期刊代号:H1
分类名称:语言文字学
复印期号:1995 年 12 期

关 键 词:

字号:

      【内容提要】本文在借鉴国内外现有理论和方法的基础上,从计算语言学角度,结合汉语代词自身的特点,提出一种基于语料库和基于规则相结合的研究设想,以探讨汉语代词所指确定的一般性方法,为计算机理解汉语代词提供一种有效可行的处理模式。

      一

      计算机科学的飞速发展,使人类直接使用自然语言与计算机打交道成为可能和必然。欲实现这一目标,必须探明人类大脑的语言机制,并赋予计算机理解与处理自然语言的智能。计算语言学(Computational Linguistics)就是为此应运而生的一门新兴学科。

      计算语言学,是指面向计算机的语言研究与应用。在理论上,它涉及语言学、计算机科学、数学和认知科学的一门综合性学科;在应用上,“它面对着包括自然语言理解、自然语言人机接口、智能化情报检索和机器翻译等广阔的应用领域。”(黄昌宁,1991)

      近年来,计算语言学的理论及应用研究成果表明:语言学与计算机信息技术的结合与交叉,已是一种实际存在的发展趋势。显然,语言学研究必须实行多元化,任何单一性的研究都不可能真正取得成功。在国外,语言学研究方向已明显地向人工智能、智能计算机等高新技术领域偏转,并且已形成与语言密切相关的信息产业、语言产业以及智能产业。在我国,为配合国际计算语言学界的“大规模真实文本的处理”这一战略目标的实现,有关的语言研究开始集中在两个方面:一是重视语料库的建设;二是采用基于语料库的自然语言处理方法。

      根据这一新的研究动向,我们考虑代词所指研究是否也该引入基于语料库语言学(Corpus Linguistics)的研究思路?

      为此,不妨回顾一下国内外代词所指研究的状况。

      所指是语言中的一个重要概念。最近几年,语言学家、认知心理学家、计算机科学家都发现它与各自领域的关系,并开始致力于这方面的研究。其中代词所指这一重要的语言现象,一直受到有关专家学者的关注。在自然语言的计算机处理领域,代词所指的研究,主要集中在代词消解(Pronoun Resolution)方面。代词消解是指如何使计算机在理解语言时能正确唯一地确定代词所指对象。国外这方面的研究,大致分为传统的和现代的两个阶段。在传统的研究阶段,人们把代词所指的确定问题仅视作一个寻找先行名词短语的问题。其方法通常是在句子平面上进行的,有时也引入常识和低层次的语言学知识。在现代研究阶段,有关专家开始认识到言谈(Discourse)平面知识对代词所指确定的重要性。如:70年代后期,主要有5种理论及方法:概念激活、注意中心、焦点框架、逻辑形式及言谈连贯;80年代提出的方法是:言谈语义特性、限定领域知识;90年代主要有:利用空位语法(Solt Grammar)和言谈上下文环境进行消解。国内的研究始于80年代。范继淹等(1981)的RJD-80和李家治等(1982)的ACLUS系统,均以句法、语义及推理方法处理所建系统中某些代词的所指问题;王开铸(1987)的CQAES-1系统,以实验验证了句内代词所指的理解层次;倪子伟、李堂秋(1991)的XMMT系统,则运用组合途径对系统中的代词所指问题作了一些尝试性的研究。

      在自然语言理解中,代词所指的确定极为复杂,涉及大量言谈分析知识。尤其是汉语,由于缺乏“形态”、强调“意会”,其代词所指在言谈环境中的使用情况更加复杂,给计算机汉语理解带来的难度更大。目前国外已在英语理解方面,提出了一些面向言谈分析的代词消解策略,但对汉语代词研究还很欠缺。国内还局限在自然语言处理系统中所出现的某些代词的处理,尚未提出一种一般性的消解策略,故难以从根本上解决自然语言理解中的代词所指问题。可以说,在当今的计算机自然语言理解研究中,尤其是计算机话语篇章理解方面,代词消解已成了阻碍我们取得突破性进展的难题之一。

      要解决这一难题,我们认为应该从汉语代词所指这一语言现象本身入手。代词所指,无论是从人理解,还是从计算机理解,说到底还是一个语言问题。而现在的问题是:代词所指现象,在自然语言中早已习以为常,而计算机处理起来却十分困难。因此,要让计算机能够比较顺利地处理代词所指,首先得全面考察代词所指现象,即将代词所指置于言谈使用环境之中进行考察分析。只有这样,我们才有可能从大量实际运用的语言事实中,“挖掘”出代词所指的规律或倾向性规律,进而加以形式化描述,归纳出代词所指的确定性规则,建立相应的代词所指消解模型,为计算机处理汉语提供算法设计的依据。这一来,代词所指现象的考察工作就显得尤为重要。要做好这项工作,我们应真正地、充分地尊重语料,特别是真实语料;而这恰好正是语料库语言学研究的出发点。

      语料库语言学的宗旨,是企图通过大规模真实语料的调查来发现并总结自然语言的各种语言事实和语言规律,为语言研究的进一步发展奠定基础。语料库语言学是“以计算机语料库为基础的研究路线,强调语言知识的源泉是大规模真实语料,而研究人员的任务是在计算机的辅助下,对这种真实语料中所包含的语言事实作出客观的描写,用以支持大规模真实文本的处理。”(黄昌宁,1991)

      语料是进行科学分析与研究的语言材料,是语言信息的载体。以真实文本语料为研究对象,是计算语言学界进行自然语言处理的最新进展。以往的计算语言学研究表明:单纯依靠一种以规则为基础的形式化理论和处理方法,已“不能满足信息社会对语言信息处理产业的需求。”原因在于:传统的语言规则往往是根据规范的语言现象概括出来的,其解释不能覆盖真实语料中所包含的某些细微的语言现象。因为真实语料往往是不合规范的。显然,基于这样的规则所建立的自然语言处理系统,是无法顺利地处理实际的语言现象;更难以胜任大规模真实文本处理。虽然,“不同的应用领域会对自然语言处理系统提出不同的要求,但是有一点是相同的,即希望系统处理的是自然语言,是大规模的真实文本。”(萧国政,1994)

相关文章: