基于语料库和语料库驱动的词语搭配研究

作 者:

作者简介:
卫乃兴,上海交通大学 卫乃兴,2002,语料库证据支持的词语搭配研究。见杨惠中主编,《语料库语言学导论》上海:上海外语教育出版社。 作者通讯地址:200030 上海 上海市华山路1954号 上海交通大学语言文字工程研究所

原文出处:
当代语言学

内容提要:

本文介绍和讨论语料库证据支持的词语搭配研究的基本方法和主要原则。基本研究方法可分为“基于语料库数据”和“语料库数据驱动”两类。基于数据的方法以语料库索引为基本依据,在传统的句法框架内对词项的搭配进行检查与概括;数据驱动的方法基本上不将句法结构作为主要参照,而设计和采用一套概念体系、步骤和程序提取和计算搭配词,凭借统计测量手段研究词语搭配的模式,或者采用技术手段提取和计算词丛。主要原则包括:以“自然发生数据”为基本依据,定量分析与定性分析相结合,采用词语中心的研究方法,以发现词组为目的等四项。文章首先讨论词语搭配研究的基本方法,然后概括研究应遵循的主要原则。


期刊代号:H1
分类名称:语言文字学
复印期号:2002 年 10 期

字号:

      1.引言

      词语搭配研究之父Firth(1957:12)曾说:“You shall know aword by the company it keeps.”即词的意义从与它结伴同现的词中体现。根据Firth的观点,词项的结伴规律、 结伴词项间的相互期待与相互吸引(mutual expectancy,mutual attraction)、搭配成份的类联接(colligation)关系等都是词语搭配的形式属性, 都是词语搭配研究的重要内容。研究这些内容、描述词项的搭配情况一直是英国语言学的一个传统。但是,语料库问世前的研究,由于缺乏足够的自然数据,一般都基于直觉,很难深入下去,研究结果也有很大的局限性。语料库语言学的兴起为词语搭配研究开辟了崭新途径与广阔前景。在语料库研究中,词语搭配被赋予新的理念。研究者建立了一套概念体系,采用一系列方法与技术来提取信息、处理数据和描述搭配行为,研究的效度因此大大提高,搭配得到深入的探讨和详尽的描述。总的来说,语料库证据支持的词语搭配研究有两种基本方法:基于数据的方法(data-based approach)和数据驱动的方法(data-driven approach)。具体的作法有三种:(1)利用索引证据、参照类联接, 检查和概括词项的搭配情况;(2)计算搭配词,采用统计测量手段, 靠数据驱动研究词语搭配模式(pattening);(3)采用技术手段,从语料库提取并计算词丛。本文根据笔者的语料库研究实践,并参照国内外同行的有关研究,对这三种方法逐一介绍和讨论,并概括语料库证据支持的词语搭配研究的重要原则。

      2.基于索引证据,参照类联接,检查和概括词项的搭配行为

      类联接是词语搭配研究中的一个重要概念。它指的是文本中语法范畴间的结合。类联接不是与词语搭配平行的抽象,而是高一级的抽象(Firth 1957)。Mitchell(1975:120-122)认为, 类联接是关于词语组合类别的抽象表述,搭配则是类联接的具体实现。简言之,类联接是词语搭配发生于其中的语法结构和框架。一个类联接代表了一个类别的词语搭配,可称为搭配类(collocational class)。人们常说的N+V,V+N,N+N等都是类联接,代表一类搭配,而evidence suggests,perform analyses和corpus evidence 等则分别是这几个类联接的具体实例。在研究中,研究者可根据具体的研究内容和目的,界定繁简程度不同的类联接,如DET+N+PREP即为一个类联接,代表一类搭配,a sort of,a pair of,a couple of,a series of等则是其具体实例(Renouf and Sinclair 1991:131-132)。 词语搭配研究的通常作法之一就是以词项为中心,参照类联接框架,观察、概括和描述词项的搭配。

      索引(concordance), 即语料库中含有所研究的关键词的句子片段。词语搭配研究所用的索引一般是KWIC(key word in context )索引,它已成为语料库研究人员的最基本工具之一。研究人员每一次在语料库中查询,都要将自己即将研究的关键词输入计算机,计算机则按照编好的程序,显示出索引。在每一行索引中,关键词总是居中出现,而左右则是构成其语境的词语,研究者可据此分析其行为。提取索引时,随机的方法很重要;大型语料库中含有关键词的索引可能极多,全部提取出来不必要也不便于观察和描述。因此,可应用随机的方法提取索引,以使其具有代表性。比如,限定在每类文本中提取若干行索引,或者在所有的索引显示后,采用隔行提取、隔两行提取的办法获得索引。由于语言使用在很大程度上是个概率问题(Halliday 1991), 随机提取可以较好地反映某个使用特点的概率属性。下面是笔者随机从COBUILD语料库中提取的commit一词的部分索引:

      1.

      merely by staying on,did not commit a criminal offence.Both the

      2.

      she felt she would never be able to commit a serious sin again.Thirty-one

      3.

      a knock-out or somebody's going to commit a major faux pas,and outside of

      4.

      prison walls; or for governments to commit abuses that won't cost their

      5.

      Exodus 20 14),"Thou shalt not commit adultery" has become "Be faithful

      6.

      for a crime they knew he did not commit and you know,Monroe County is like

      7.

      of an Account Holder or if you commit any breach of the Conditions,

      8.

      for their own uses.They will commit any crime,but never in passion.

相关文章: