0.引言 语料(corpus),又称为素材,是自然发生的语言材料(包括书面语和口语)的集合。“可以用来作为描述一种语言的出发点或用于证实有关一种语言的假设的手段(Crystal,1991)。”语料语言学(corpus linguistics)是以语篇(text)语料为基础对语言进行研究的一门学科,是计算语言学(computational linguistics)的一个分支。本文试图通过对语料语言学的发展、语料库的建立、语料语言学的研究方法,以及今后发展的叙述,使读者对这一新学科有一个概括的了解。语料语言学发展初期基本上以英语作为研究对象。但是,现在已发展到20多个语种。本文的叙述以英语语料语言学为基础。 1.语料语言学的由来和发展 利用真实的(authentic)语言资料研究语言一直是语言学的传统。历史上荷兰的英语语法学家Poutsma和Kruisinga、《牛津英语辞典》的编纂者Murray和《现代英语语法》的作者著名语言学家Jesperson都曾以很原始的方法认真积累真实语言素材,并且以这些素材为基础来发现规律和解释语言现象。他们还将素材作为例子在各自的著作中加以引用(Svartvik,1992)。 但是,到了本世纪50年代后期,随着Chomsky生成语法学派的兴起,“基于语料”的语言描述方法遭到批评。生成语法学派指责语料有局限性,Chomsky本人曾批评说:“任何自然语言的语料都是偏颇的。有些句子显然是不会出现的,另外一些句子是假的,不会出现,还有些句子是不礼貌的,也不会出现(Chomsky,1962)。”他们认为语料不过是语言行为(performance)的取样,与人们的语言能力(competence)完全是两回事。因此,分析真实语篇对解释语言的语法不可能起任何作用,更不用说形成一种普遍的语言学理论。到了60年代初,人们对真实的语言素材兴趣降到了最低点,而语言学家由语感(intuition)或诱发(elicitation)所得到的语言使用例子成了语言学研究的主要数据来源。 尽管如此,新一代语料语言学的奠基人不畏权威的批评,开始了自己的工作。1959年,Quirk宣布要搜集大量不同文体的英语素材,建立英国英语口语和书面语语料库,即后来的SEU语料库(The Survey ofEnglish Usage Corpus),作为系统描述英语口语和书面语的根据。1961年,Francis和Kucera在美国Brown大学建立起Brown语料库(BrownUniversity Standard Corpus of Present-day American English),其中的语篇取自1961年美国英语出版物,字数超过100万。这是世界上第一个机器可读(machine-readable)语料库。1970年,在英国Lancaster开始了一项与Brown语料库结构基本相同的英国英语语料库工程。但是,由于缺少经费该工程迟迟不能完成。后在挪威同行的帮助下于1978年完成,称为LOB语料库(Lancaster Oslo-Bergen Corpus of British English)。这个语料库中的英国英语书面语和Brown语料库中的美国英语书面语为这两大方言的对比研究提供了多方面的依据。1975年,在瑞典Lund大学的Svartvik主持下,开始对SEU语料库中的口语部分进行改造,使其成为机器可读形式。这项工作的成果是诞生了LLC语料库(London Lund Corpus)。90年代以前,这个语料库一直是研究英语口语的最好资料来源。 进入80年代以后,随着计算机技术的发展和普及,语料语言学的发展加快了步伐。许多新的语料库相继建成,对语料的处理也由较为简单的机器可读形式发展到人工或自动词性附码(tagging)和句法分析(parsing)的注释(annotated)形式。利用语料对语言进行研究的成果不断出现。很多成果已被用于辞典编纂和语言教学等实际工作中,例如1980年由Sinclair主持的一个语料库工程,即Cobuild计划(Collins Birmingham University International Language Database)。这是Collins出版公司与Birmingham大学的一项合作计划。他们搜集了大量的现代英语口语和书面语素材,逐一分析每个单词的词汇、语法、语义、语体和语用特点,并将这些资料输入到计算机数据库中。根据这个数据库中资料,陆续出版了一系列COBUILD词典和语法等工具书。这些书中的例句取自真实的语言素材,词典中词的释义排列顺序由语料库中得出的统计结果来决定,更加客观地反映了英语的使用情况。此外,词的释义方法更利于英语学习和教学。因此,这些书一出版就受到语言学界和语言教师及学生的欢迎。 30多年来,在致力于这方面研究的语言学家坚持不懈的努力下,现代语料语言学逐渐得到发展。建立语料库和进行语言研究的手段不断得到完善。计算机运算速度的提高、光学扫描仪和CD-ROM(光盘只读存储器)等技术的发展、存储器成本的降低以及以软盘或CD-ROM形式提供的商品化语料库及其配套软件,不但使大批量的数据处理成为可能,而且使以前只能在大型(Mainframe)计算机上运行的语料库在微机上也能运行。越来越多的人开始参与基于语料的语言学研究。新的研究成果的不断出现改变了人们对语言研究的固有观念和研究模式。1991年8月,在斯德哥尔摩召开的诺贝尔语料语言学研讨会(Nobel Symposium on Corpus Linguistics)上,语言学家们在认真总结和评估了这方面的研究成果之后得出的结论是语料语言学“正在成为一个独立的学科”(Svartvik,1992),而且发展前景相当广阔。正如著名的语言学家Leech(1991)所说:“那些搞计算机语料工作的人忽然发现自己置身于一个越来越广阔的世界里。多年来,语料语言学只是少数几个人梦寐以求的愿望,他们得不到语言学或计算机科学的承认。现在情况正在发生很大的变化,而且人们要求将来发生更大的变化。”