几个大的语料库评介

收藏 |打印|下载word

作者：

王伯浩

作者简介：

兰州商学院通讯地址：730020 兰州商学院国贸系英语教研室

原文出处：

当代语言学

内容提要：

期刊代号：H1

分类名称：语言文字学

复印期号：1998 年 05 期

关键词：

字号：大中小

在现代西方语言研究中，语言学家由于研究的范围不同，使用的方法不同，所持的态度不同，而形成了不同的主义或流派。但不论属于哪个主义，何种流派，语言学家大都是在充分掌握语料的基础上，通过对语料的分析、对比、假设、综合等手段来描述和解释语言的。一般来说，语言学家获取语料的方法，主要有以下三种：

（1）依赖自己的语言直觉（intuition），通过自我内省（self-retrospection），自造例证；

（2）以取样调查的方法（sampling technique ）收集有代表性的语料，并建语料库（corpus work）；

（3）进行诱导询问（elicitaton），发放调查表，向合作人提问诱导来获取经过验证的语料。

这三种方法虽然各有各的用途，各有各的优点，但使用最普遍的是第（2）种方法，这就是建语料库。本文着重介绍几个影响较大的语料库。

1959年伦敦大学语言学教授Randolph Quirk组织发起了“英语用法调查”（The Survey of English Usage）（SEU）项目，有计划地收集不同语体的大量语料，并利用计算机对收集到的语料进行储存、分类。语言科学史上的第一个较大型的电脑语料库从此诞生了。该库的各种语料成分及分类如下（引自Jan Svartvik et al.1982）：

表1.“英语用法调查”语料库

(I)原始书写语料(100篇)

(A)印刷品(46) (B)非印刷品(36)

人文科学 6 ┌ 想象性 5

连续书写品┤

自然科学 7 └ 资讯性 6

教学 6

┌ 一般新闻

┌亲密6

报刊┤社交书信┤平等4

└ 专门报导

└疏远4

文书 4 ┌平等 4

非社交书信1┤

法律 3 └疏远 4

论说文5

日记 4

散文小说 7

(C)口语(18)

┌资讯性 4

剧本 4

谈话┤

└想象性 2

正式演说(经转写) 3

故事 2

广播新闻 3

(Ⅱ)原始口说材料(100)篇

有准备的演说(未转写) 6 ┌ ┌亲密 24

┌演说

10 │不公开┤

自发言语┤┌体育 4 │ └疏远 10

└评论┤│ ┌亲密 20

└其他 4 交谈┤可公开┤

│ └疏远 6

│┌亲密

│电话┤

└└疏远6

可以看出，该库共收集200个语篇，口头语书面语各占一半，每个语篇约5000字左右，共有百万字之多。其内容包罗了各种不同的语体及社会的各个层面。

纵观西方语言科学发展的历史，Quirk的SEU无论是在研究观念上还是方法上都是一大创新，为语料库语言学的发展开了个好头，也为语言学研究提供了全新的科学手段。

六十年代初,美国布朗大学（Brown University）的两位语言学家Nelson Francis和HeRRy Kucera继Quirk之后,建起了第一个计算机可读的（machine-readable）布朗语料库（Brown Corpus）。此后不久,G.Leech（Lancaster大学），S.JohanSSon（Oslo大学）和K.Hofland（Bergen大学）三方协同，依据布朗语料库的模式，建起了“兰开斯特—奥斯陆／卑尔根语料库”（The

Lancaster- Oslo／Bergen （LOB）Corpus）。与Brown Corpus所不同的是，LOB Corpus 还能对英语的不同变体（varieties）进行分析研究。

三大电脑语料库的建立，结束了个人费时费力收集语言材料的历史，确立了语料库语言学在语言研究中无可争议的地位。同时也给corpus赋予了新的含义，提出了新的标准。这一点在Francis给corpus 下的定义中得到了充分体现：语料库即“文本的集合，假定代表某一语言、方言或语言的品种，用于语言分析”（1979：110）。

从这个定义可以看出，所收集的语料已从早期的词语、短语、单句扩大到语篇（text）；收集范围从特定语言扩大到方言和语言的其它分支。值得注意的是，所选语篇必须考虑到典型性或代表性，语篇本身和语料库还得具备相当的容量，才足以反映出语言特定部分的真实特征。要使收集到的语篇达到这样的标准，毫无疑问，在收集语料的过程中，语言学家就得凭自己对语言的直觉，仔细地对所选语料内省一番不可。当然，其中也不排除典型调查和诱导询问的方法。这样收集到的语料，不用说，是比较客观真实，详尽可靠的。

SEU Corpus,Brown Corpus,LOB Corpus三大语料库的建立仅仅是一个良好的开端，尚有许多不尽心人意之处，有不少问题有待解决，如：库容量还不够理想，利用电脑直接检索、查阅、统计等操作系统还很不完备，当时SEU还无法用计算机程序获取所需资料等。

国外FOXP2基因及其语言相关性研究二十年

俞建梁

语言文...2011年第12期
汉语主谓式复合词与非宾格动词假设

王铭宇

语言文...2011年第12期
汉语单音节定语移位的语义制约

柯航

语言文...2011年第12期
预设否定叠加的方式与类别、动因与作用

张谊生

语言文...2011年第12期
甲骨文中的範圍副詞

黄天樹

语言文...2011年第12期

几个大的语料库评介

相关文章：