汉语搭配定量分析初探

作者简介:
孙茂松 黄昌宁 方捷 北京 清华大学计算机科学技术系 100084

原文出处:
中国语文

内容提要:

搭配在语言教学和语言信息处理中具有一定的应用价值。汉语搭配的研究仍停留在主要以人的主观判断为标准的定性分析阶段,缺乏定量数据的支待。本文借鉴了国外在语言学和语料库语言学两个方面关于搭配的研究成果,提出了包括强度、离散度及尖峰三项统计指标在内的搭配定量评估体系,构造了相应的搭配判断算法。作为对算法的初步测试,我们以一个约710万词次的新华社新闻语料库为工作平台,利用计算机对“能力”一词可能构成的搭配进行了全面分析。实验结果显示,就该词而言,算法自动发现搭配的准确率约为33.94%。本项研究可望为语言学家客观、系统、一致地分析搭配提供定量辅助手段。


期刊代号:H1
分类名称:语言文字学
复印期号:1997 年 06 期

关 键 词:

字号:

      1.意义

      为什么我们说“穿衣”、“戴帽”而不说“穿帽”、“戴衣”?为什么同是“看”,当后接“电影”、“球赛”、“小说”、“朋友”时,英语译文必须分别以see,watch,read及visit与之对应?显然,这是搭配(collocation)的影响所致。搭配在语言教学(特别是第二语言教学)进而在语言交际中的作用,早已为人们所认识,并且日益得到重视。近年出版或再版的一些比较著名的英语通用词典(general-purpose dictionary),如Webster's New World Dictionary,Collins English Dictionary,Concise Oxford Dictionary,The Random House Dictionary of the English Language,均收录了一定数量的搭配,正反映了这种趋势。

      搭配研究的一个新兴应用领域是语言信息处理。一切自然语言处理系统归根结底都是基于知识系统,如果希望计算机实现对一个句子的理解或翻译,那么人完成同样任务所需要的全部知识,严格说来,计算机一点儿也不能少。搭配知识则是所谓“全部知识”中有机组成部分之一。仍以“看电影”、“看球赛”、“看小说”、“看朋友”为例。对它们进行句法、语义分析,就会发现它们的句法结构和语义表示完全相同(均为动宾结构且宾语均为动作“看”的受事),必须嵌入相关的搭配知识才能体现出“差异”,从而生成合适的译文。再如,汉语中双音节动词加双音节名词既可构成谓词性成分(如“生产化肥”、“生产汽车”),也可构成体词性成分(如“生产能力”、“生产资料”),前者具有语法上的普遍性,后者则有特异性,根据搭配知识很容易排除分析过程中遇到的此类歧义。

      2.对搭配的认识及其相关研究

      什么是搭配?似乎不同的理论角度与应用背景,人们对此问题存在着不同的理解,本文不打算展开讨论。在搭配领域最具影响的研究当推美国宾州大学Benson教授的工作及其负责编纂的BBI Combinatory Dictionary of English (1985,1986,1989,1990)。我们比较倾向Benson编纂的BBI时给出的关于搭配的定义:

      定义1 搭配是一种具有任意性的、重复出现的词的组合。

      (A collocation is an arbitrary and recurrent word combination.)

      从Benson的定义可知搭配的两条重要性质:

      性质1 搭配是重复出现的。

      这一性质决定了搭配应有一定的流通度,而非偶然的“个例”。

      性质2 搭配是任意的。

      这里有必要引入两个与性质2密切相联的重要概念,即词的“自由组合”(free combina-tion)与“约束组合”(bound combination)。按照Benson的观点,自由组合是指构成该组合的词并非以一种相对特异的方式相互约束,它们各自还可以与其它词自由地进行组合。例如,动词condemn可带相当多的名词(theabduction,abortion,abuse of power,the acquittal等)作宾语,而名词murder也可出现在数以百计的动词(abhor,accept,acclaim,advocate等)之后,故组合condemn murder是自由组合。自由组合是可预期的,一个学习第二语言的人,只要了解有关词的含义、语法属性及相应的语法组合规则,就可以在语言交际中根据需要很容易地“拼”出这种组合;约束组合的情形正好相反,具有一定的特异性,辖内的词至少有一个与其它词的组合受到较大限制。如组合commit murder中的动词commit只可能同屈指可数的几个名词crime,wrongdoing发生关系,故应是约束组合。约束组合(搭配)是不可预期的,在同样的语法、语义制约条件下,为什么非得这么讲,那么讲就不行,没有太多的道理,恐怕一般只能解释为习惯使然(如英语只说make an estimate,warmest greetings而不说make an estimation,hot greetings)。这是语言教学,尤其是第二语言教学过程中最感困难的环节之一,基本上无规律可循。正是在这个意义上,我们称搭配具有任意性(或也可叫不可预期性)。

      搭配的其它性质还有:

      性质3 搭配通常是具有一定结构的。

      Benson(1989)将英语的搭配分成语法搭配及词汇搭配两大类,语法搭配再分26个细类(如v+prep,n+prep,adj+prep等),词汇搭配分7个细类(如v+n,n+v,n+n,adv+adj,v+adv等)。对某些搭配,所辖的两个词之间允许有间隔,甚至调序(如搭配make-decision,to make a decision,decisions to be made,made an important decision几种表述都可以),但仍保持一定的结构关系(Smadja,1993)。

相关文章: