在现代西方语言研究中,语言学家由于研究的范围不同,使用的方法不同,所持的态度不同,而形成了不同的主义或流派。但不论属于哪个主义,何种流派,语言学家大都是在充分掌握语料的基础上,通过对语料的分析、对比、假设、综合等手段来描述和解释语言的。一般来说,语言学家获取语料的方法,主要有以下三种: (1)依赖自己的语言直觉(intuition),通过自我内省(self-retrospection),自造例证; (2)以取样调查的方法(sampling technique )收集有代表性的语料,并建语料库(corpus work); (3)进行诱导询问(elicitaton),发放调查表, 向合作人提问诱导来获取经过验证的语料。 这三种方法虽然各有各的用途,各有各的优点,但使用最普遍的是第(2)种方法,这就是建语料库。 本文着重介绍几个影响较大的语料库。 1959年伦敦大学语言学教授Randolph Quirk组织发起了“英语用法调查”(The Survey of English Usage)(SEU)项目,有计划地收集不同语体的大量语料,并利用计算机对收集到的语料进行储存、分类。语言科学史上的第一个较大型的电脑语料库从此诞生了。该库的各种语料成分及分类如下(引自Jan Svartvik et al.1982): 表1.“英语用法调查”语料库 (I)原始书写语料(100篇) (A)印刷品(46) (B)非印刷品(36) 人文科学 6 ┌ 想象性 5 连续书写品┤ 自然科学 7 └ 资讯性 6 教学 6 ┌ 一般新闻 4 ┌亲密6 报刊┤社交书信┤平等4 └ 专门报导 4 └疏远4 文书 4 ┌平等 4 非社交书信1┤ 法律 3 └疏远 4 论说文5 日记 4 散文小说 7 (C)口语(18) ┌资讯性 4 剧本 4 谈话┤ └想象性 2 正式演说(经转写) 3 故事 2 广播新闻 3 (Ⅱ)原始口说材料(100)篇 有准备的演说(未转写) 6 ┌ ┌亲密 24 ┌演说 10 │不公开┤ 自发言语┤┌体育 4 │ └疏远 10 └评论┤│ ┌亲密 20 └其他 4 交谈┤可公开┤ │ └疏远 6 │┌亲密 10 │电话┤ └└疏远6 可以看出,该库共收集200个语篇,口头语书面语各占一半, 每个语篇约5000字左右,共有百万字之多。其内容包罗了各种不同的语体及社会的各个层面。 纵观西方语言科学发展的历史,Quirk的SEU无论是在研究观念上还是方法上都是一大创新,为语料库语言学的发展开了个好头,也为语言学研究提供了全新的科学手段。 六十年代初,美国布朗大学(Brown University)的两位语言学家Nelson Francis和HeRRy Kucera继Quirk之后,建起了第一个计算机可读的(machine-readable)布朗语料库(Brown Corpus)。此后不久,G.Leech(Lancaster大学),S.JohanSSon(Oslo大学)和K.Hofland(Bergen大学)三方协同,依据布朗语料库的模式,建起了“兰开斯特—奥斯陆/卑尔根语料库”(The Lancaster- Oslo/Bergen (LOB)Corpus)。与Brown Corpus所不同的是,LOB Corpus 还能对英语的不同变体(varieties)进行分析研究。 三大电脑语料库的建立,结束了个人费时费力收集语言材料的历史,确立了语料库语言学在语言研究中无可争议的地位。同时也给corpus赋予了新的含义,提出了新的标准。这一点在Francis给corpus 下的定义中得到了充分体现:语料库即“文本的集合,假定代表某一语言、方言或语言的品种,用于语言分析”(1979:110)。 从这个定义可以看出,所收集的语料已从早期的词语、短语、单句扩大到语篇(text);收集范围从特定语言扩大到方言和语言的其它分支。值得注意的是,所选语篇必须考虑到典型性或代表性,语篇本身和语料库还得具备相当的容量,才足以反映出语言特定部分的真实特征。要使收集到的语篇达到这样的标准,毫无疑问,在收集语料的过程中,语言学家就得凭自己对语言的直觉,仔细地对所选语料内省一番不可。当然,其中也不排除典型调查和诱导询问的方法。这样收集到的语料,不用说,是比较客观真实,详尽可靠的。 SEU Corpus,Brown Corpus,LOB Corpus三大语料库的建立仅仅是一个良好的开端,尚有许多不尽心人意之处,有不少问题有待解决,如:库容量还不够理想,利用电脑直接检索、查阅、统计等操作系统还很不完备,当时SEU还无法用计算机程序获取所需资料等。