几个大的语料库评介

作 者:

作者简介:
兰州商学院 通讯地址:730020 兰州商学院国贸系英语教研室

原文出处:
当代语言学

内容提要:


期刊代号:H1
分类名称:语言文字学
复印期号:1998 年 05 期

关 键 词:

字号:

      在现代西方语言研究中,语言学家由于研究的范围不同,使用的方法不同,所持的态度不同,而形成了不同的主义或流派。但不论属于哪个主义,何种流派,语言学家大都是在充分掌握语料的基础上,通过对语料的分析、对比、假设、综合等手段来描述和解释语言的。一般来说,语言学家获取语料的方法,主要有以下三种:

      (1)依赖自己的语言直觉(intuition),通过自我内省(self-retrospection),自造例证;

      (2)以取样调查的方法(sampling technique )收集有代表性的语料,并建语料库(corpus work);

      (3)进行诱导询问(elicitaton),发放调查表, 向合作人提问诱导来获取经过验证的语料。

      这三种方法虽然各有各的用途,各有各的优点,但使用最普遍的是第(2)种方法,这就是建语料库。 本文着重介绍几个影响较大的语料库。

      1959年伦敦大学语言学教授Randolph Quirk组织发起了“英语用法调查”(The Survey of English Usage)(SEU)项目,有计划地收集不同语体的大量语料,并利用计算机对收集到的语料进行储存、分类。语言科学史上的第一个较大型的电脑语料库从此诞生了。该库的各种语料成分及分类如下(引自Jan Svartvik et al.1982):

      表1.“英语用法调查”语料库

       (I)原始书写语料(100篇)

       (A)印刷品(46) (B)非印刷品(36)

      人文科学 6 ┌ 想象性 5

       连续书写品┤

      自然科学 7 └ 资讯性 6

      教学 6

      ┌ 一般新闻

      4

      ┌亲密6

      报刊┤社交书信┤平等4

      └ 专门报导

      4

      └疏远4

      文书 4 ┌平等 4

       非社交书信1┤

      法律 3 └疏远 4

      论说文5

      日记 4

      散文小说 7

      (C)口语(18)

      ┌资讯性 4

      剧本 4

      谈话┤

       └想象性 2

      正式演说(经转写) 3

      故事 2

      广播新闻 3

      (Ⅱ)原始口说材料(100)篇

      有准备的演说(未转写) 6 ┌ ┌亲密 24

      ┌演说

      10 │不公开┤

      自发言语┤┌体育 4 │ └疏远 10

      └评论┤│ ┌亲密 20

       └其他 4 交谈┤可公开┤

      │ └疏远 6

      │┌亲密

      10

      │电话┤

      └└疏远6

      可以看出,该库共收集200个语篇,口头语书面语各占一半, 每个语篇约5000字左右,共有百万字之多。其内容包罗了各种不同的语体及社会的各个层面。

      纵观西方语言科学发展的历史,Quirk的SEU无论是在研究观念上还是方法上都是一大创新,为语料库语言学的发展开了个好头,也为语言学研究提供了全新的科学手段。

      六十年代初,美国布朗大学(Brown University)的两位语言学家Nelson Francis和HeRRy Kucera继Quirk之后,建起了第一个计算机可读的(machine-readable)布朗语料库(Brown Corpus)。此后不久,G.Leech(Lancaster大学),S.JohanSSon(Oslo大学)和K.Hofland(Bergen大学)三方协同,依据布朗语料库的模式,建起了“兰开斯特—奥斯陆/卑尔根语料库”(The

      Lancaster- Oslo/Bergen (LOB)Corpus)。与Brown Corpus所不同的是,LOB Corpus 还能对英语的不同变体(varieties)进行分析研究。

      三大电脑语料库的建立,结束了个人费时费力收集语言材料的历史,确立了语料库语言学在语言研究中无可争议的地位。同时也给corpus赋予了新的含义,提出了新的标准。这一点在Francis给corpus 下的定义中得到了充分体现:语料库即“文本的集合,假定代表某一语言、方言或语言的品种,用于语言分析”(1979:110)。

      从这个定义可以看出,所收集的语料已从早期的词语、短语、单句扩大到语篇(text);收集范围从特定语言扩大到方言和语言的其它分支。值得注意的是,所选语篇必须考虑到典型性或代表性,语篇本身和语料库还得具备相当的容量,才足以反映出语言特定部分的真实特征。要使收集到的语篇达到这样的标准,毫无疑问,在收集语料的过程中,语言学家就得凭自己对语言的直觉,仔细地对所选语料内省一番不可。当然,其中也不排除典型调查和诱导询问的方法。这样收集到的语料,不用说,是比较客观真实,详尽可靠的。

      SEU Corpus,Brown Corpus,LOB Corpus三大语料库的建立仅仅是一个良好的开端,尚有许多不尽心人意之处,有不少问题有待解决,如:库容量还不够理想,利用电脑直接检索、查阅、统计等操作系统还很不完备,当时SEU还无法用计算机程序获取所需资料等。

相关文章: