自然语言处理的概率配价模式理论

作 者:

作者简介:
刘海涛,博士,中国传媒大学教授;(北京 100024) 冯志伟,教育部语言文字应用研究所研究员,中国传媒大学应用语言学系。(北京 100024)

原文出处:
语言科学

内容提要:

文章提出一种用于自然语言处理的概率配价模式理论(Probabilistic Valency Pattern,简称PVP理论)。PVP理论不仅扩展了传统的配价理论,也在配价模式中加入了概率成分。这种理论不但有助于从概率的角度解释语言的理解或生成过程,对寻求更好的基于统计的自然语言处理算法也有一定的作用。


期刊代号:H1
分类名称:语言文字学
复印期号:2007 年 09 期

字号:

      1 引言

      英国化学家Frankland将价的思想引入了化学领域。(Frankland 1852)1890年左右,美国学者Pierce在他的关系代数中首次使用“价”的概念来分析自然语言。(Burch 1991)1959年,法国语言学家Tesnière在其巨著《结构句法基础》(Tesniere 1959)中将价和句法理论联系在了一起。今天人们一般认为Tesnière是现代配价理论的奠基者。配价理论虽然是一种源于欧洲大陆的语言学理论,但这种思想几乎可见于所有现代的语言学理论之中。

      传统上,配价理论是一种有关词的句法一语义理论,人们一般用它来描述一个词和其补足语的关系。这样的研究,对于了解词的用法当然很有帮助。但为了分析真实的语句,仅考虑补足语是不够的。此外,一个词的配价可能是变化的,补足语的出现概率不是均等的,价携带者和其补足语结合的过程是相互吸引的,由于存在这样一些问题,这就要求我们从价的根本属性出发,以应用为导向,尽量避开一些一时难以有结论的学术争论,构造一种符合信息时代语言观,即同时考虑人和计算机需要的配价理论。本文本着这一原则,引入一种广义的配价定义,并据此提出了配价模式理论,然后又在此模式中加入概率成分,形成了一种概率配价模式理论(Probabilistic Valency Pattern Theory,简称PVP)。文章首先介绍广义配价和配价模式理论,然后引入概率配价模式的一般理论,并给出了几个汉语词类的配价模式示意图,最后简述了一种基于配价模式的自然语言处理架构。

      2 配价和广义配价模式

      我们首先来看几种有代表性的配价定义:

      “可以把动词比作一个带钩的原子,动词用这些钩子来吸引与其数量相同的行动元作为自己的从属成分。一个动词所具有的钩子的数量,即动词所能支配的行动元的数目,就构成了我们所说的动词的配价。”(Tesnière1959:238)

      “价指的是动词及受其支配成分之间的抽象关系;句法配价是指动词在其周围开辟一定数量的空位,并要求用必有或可选共演成分(Mitspieler)填补的能力。”(Helbig and Schenkel 1978:49-50)

      “价是语言单元的一种能力,使用这种能力它可与其他特定的单元构成更大的单元。价虽然是一种独立于依存的概念,但我们可以将一个词的价定义为它所属词类的子类具有的向下依存关系之能力。”(Fischer 1997:1)

      “如同原子一样,词也不是孤立出现的,而是要和其他的词组合形成更大的单位:可以和这个词一起出现的其他成分的数量与类型是语法的一个非常重要的部分。又如原子一般,词用这种方式和其他词结合的能力可以用一个术语‘价’来表示。”(Herbst,Heath,Roe and Gotz 2004:vii)Hudson在自己的“词语法百科”中,对“价”是这样描述的:“‘价’这个术语是欧洲传统依存语法的一部分。它涉及到一个词所期望的依存关系,在所谓的‘配价词典’里列出了数以千计的词(特别是动词)的所有可能的价模式。说一个词有什么价,指的是它与其他词的‘结合’的方式。本术语一定包含所有的补足语和所有的主语(即,我们的‘价语’valents),并肯定不含说明语(状语)。”(Hudson 2004)

      虽然这些价的定义不太一样,但将价理解为一种词的结合能力大致不会有什么问题。从这些定义,也可看出有的学者将价视为一种语言单位的普遍能力,有的则认为它只是动词才有的一种能力;大多数学者也认为配价只应考虑补足语(行动元),而不应包含说明语(状态元)。按照Helbig的说法,对于所有的配价理论研究者,不论他的研究路向是句法、语义还是语用和认知,如何区分补充成分(E)和说明成分(A)都是他们的中心问题(Helbig 2002:146)。但在实际操作过程中,这个问题并不好处理。

      

      图1 是一个配价模式示意图。

      配价理论之所以在语言教学和计算语言学中得到了较为广泛的应用,原因就在于它是一种面向应用的语言学理论。因此,我们可搁置争议,从实用的角度出发,来考虑这个问题。

      我们认为,配价是词(注:事实上,配价应该被视为是语言单位的一种普遍属性。我们这里只提词或词类,是为了方便讨论。)的一种根本属性,广义的配价是指词具有的一种和其他词结合的能力,这种能力是一种潜在的能力,它在语句中的实现受句法、语义和语用等因素的限制;狭义的配价指动词等词类要求补足语的能力。

      其中W表示一个词(类),C1-C3是为了完善或明确W的意义所需要的补足语,A1-A3是可对W进一步做出说明或限定的说明语,C为W潜在的支配词(类)。这个示意图也显示,一个词的结合力,可以分为向心(输入)和离心(输出)两类,向心力表示词受别的词的支配能力,离心力则是它支配其他词的能力。(注:我们采用离向心力的说法,主要是为了更好地解释词形成句子的问题。)一旦W出现在真实的文本之中,那么它就打开了一些需要填补的空位,换言之,在潜力开辟具体空位的同时,它也预言了所需要补足语的数量和类型。同时,W在进入具体文本时也显现了它是否能满足别的词(类)从属者的需要。至于真正的结合能否发生,则要看句法、语义等方面的结合要求是否能得到满足,这样句法、语义特征限制也就成为配价的一部分了。在这个图里,我们也避开了区分补足语和说明语的难题。

相关文章: