1.引言 短语学(phraseology)是近年来语言学研究关注的焦点,词块则是语料库和相应技术出现后形成的一种短语研究单位。短语研究大体可分为理论驱动和语料库驱动研究两类(卫乃兴2007)。语料库问世之前,经典的短语学研究始于俄罗斯学派(Cowie 1998),以定性研究为主,对短语进行了详尽分类,最早的“词级”(word-like)和“句级”(sentence-like)短语、成语和“限制性搭配”(restricted collocation)的二分法即来源于俄罗斯学派(Zgusta 1971;Mel’cuk 1988),其依据是直觉或“心理凸显性”(psycholoical salience),没有真实语言使用中的频率、分布等定量信息支持。与此相反,语料库驱动的短语学研究基于真实数据,以频数信息为出发点,研究涉及大量多种多样的词语序列及其形式与功能特征。另外,还有一类过渡型的短语研究结合了经典理论和语料库信息,如Moon(1998)调查权威字典中的短语在专门语料库中的使用情况。这一类研究的不足之处在于无法揭示语言使用中大量未收入字典和文献的“半规则”短语的用法规律。这些短语的形式和功能受句法之外的使用规约限制,同时又是母语式选择与流利的标志(native-like selection and fluency,Pawley &Syder 1983),其最大的使用特征就是频率高、分布广,是语料库驱动短语学研究的主要研究对象。 2.词块的界定与分类 词块(lexical chunk)是语料库驱动短语学研究的一种词语序列或单位。词块的界定可包括“词性”和“块性”:词性即作为语言单位使用的属性,描述了词块在语言使用中频率高、分布广,在实时语言处理中不同程度地都具有像单个词一样的作用和功能特征,如“how are you”的整体使用及其问候功能;块性则是词块区别于其他语言单位的特性:一个较长的词语序列,词序相对固定,以连续的形式出现。试将词块与一般意义上的“搭配”比较:后者在形式上较为灵活,通常由一定跨距内的两个词形构成,不一定连续,有一定的句法关系,如“take…bus”(卫乃兴2002);而词块则是包括功能词在内的一个相对连续的语言使用单位,长度或结构相对灵活,是语言社团在给定语境中表达特定意义或功能的手段,如“take it easy”(Stubbs 2002)。 语料库驱动的词块研究中,Altenberg的工作特别值得关注,因为他最早采用语料库频率信息识别词块。他早期对“London-Lund Corpus(LLC)”口语语料库的调查发现LLC中70%都是“复现词语组合”(recurrent word-combination),复现词语组合在口语中无处不在而且富于变化(Altenberg 1998;Altenberg & Eeg-Olofsson 1990)。Altenberg另外一个被广为引用的词块研究成果就是他对复现词语组合所做的结构分类和数据分布描述,包括句子层面的独立小句(independent clause)、依附小句(dependent clause)和词语层面的多个句子成分(multiple clause constituent)、单个句子成分(single clause constituent)和不完整短语(incomplete phrase)。其中,多个句子成分又依据在小句中的分布位置分为框架语(frame)、起始语(onset)、主干语(stem)、中间语(medial)、述位语(rheme)、尾巴语(tail)和过渡语(transition):框架语处于小句单位的首位,多由连词或句子修饰成分构成;起始语通常由话语连接语(discourse item)和部分或全部主语构成;主干语由主语和部分或全部谓语构成;中间语由谓语和部分或全部宾语构成;述位语①由宾语和补语构成;尾巴语和过渡语则由句子尾部的状语和话语修饰成分构成。这个分类承上启下,体现了词块在传统语法范式中的句法结构和小句分布位置上的灵活性。 Biber是另一个词块研究的先锋人物。他的贡献在于将单纯频率之外的分布因素纳入词块的判断标准。Biber等(1999)对“Longman Corpus of Written and Spoken English”中频率高、分布广的“词串”(lexical bundle)做了详细调查。Biber等(2004)还对“T2K-SWAL”(TOEFL 2000 Spoken and Written Academic Language)语料库中的高频且广泛分布的词串做了文体对比研究。Biber的另一重要贡献就是对词串所做的功能分类(Biber et al 2003;Biber et al 2004),其中的四个核心分类:指称性词串(referential bundle)、组织性词串(text organizer)、态度性词串(stance bundle)和人际性词串(interactional bundle)以Halliday(1994)提出的语言的概念、人际和组织(ideational,interpersonal,organizational)三个元功能为框架。指称性词串指客观或抽象的对象甚至篇章自身,既可以指称对象本身,也可以指称对象的特定特征,如“there’s a lot of”,“a little bit more”;组织性词串组织话语或篇章,表明前后话语的关系,如“if you look at”,“on the other hand”;态度性词串表明说话人对说话内容的态度或评价,如“I don’t know if”,“I think it was”;人际性词串则表明说话人对说话对象的态度,如“thank you very much”。