【内容提要】语料库的建立与研究在国内起步较晚,而这门新兴学科正日益显示出其实用价值与研究价值,本文拟将作者对英国伯明翰大学语言研究中心与英国柯林思出版公司合作建立的COBUILD语料库的初步研究作一概述,希望能激起国内同行的兴趣,共同进行语料库的研究。 一、引言 在当今社会,计算机技术的广泛应用使科学研究及日常生活的各个领域产生了前所未有的巨大变化。在语言教学与研究领域,利用计算机技术收集语料、进行语言分析在30年前被认为是一件根本不可能的事,在20年前已表现出一定的可能性,但仍被许多人认为是一种愚蠢的行为,而在今天,国外语料库的发展及语料库的研究已到了令人惊讶的地步,英国伯明翰大学语言研究中心与英国柯林思出版公司(Collins Publishers)合作建立COBUILD语料库以及在此基础上编撰而成的COBUILD词典第1版已经于1987年出版,并被公认为是一本代表并反映现实语言的好词典。COBUILD系列的语法词典、词组词典、词语用法词典、搭配词典等也已相继问世,并给语言学习者提供了极大的帮助。 COBUILD语料库至今已收集1亿字的语料,语料库的语料包括书面语及口语,书面语由小说类文学作品、非小说类文学作品、英国《泰晤士报》刊登的文章三部分组成,口语以BBC英语为主,对语料的收集、处理工作还在继续进行,COBUILD小组目前正广泛征集对COBUILD词典第1版的意见,准备在近期出第2版。 二、COBUILD语料库的特点及其对语言研究、词典编撰的意义 COBUILD项目的目的在于“寻找一种对英语语言的全新的、彻底的描述”,这种描述的基础是对自然语言中所表现的语言行为的客观观察。CDBUILD小组对语料的收集定了下列原则: ──收集书面语及口语; ──尽可能收集普通英语,不收集或少收集科技英语; ──收集当代英语(1960年以来),并尽量收集最新英语; ──收集自然发生的语言,而不收集戏剧性的语言; ──收集散文语料,包括小说类文学作品,不收集诗歌作品; ──收集成人语言(16岁以上); ──收集规范英语,不收集地区方言。 在这些原则指导下收集的语料以及在此基础上整理产生的重要语词索引具有极大的价值,既使语言学习者对重要语词的意思、用法有一个非常直观的了解,又成为词典编撰的重要依据。 曾经被广泛推崇的一些单语词典,如《柯林思词典》、《韦氏大词典》等都存在下列一些问题:第一,词性被用作词条安排的依据,尽管常常会加上一些诸如单数、复数的说明,偶然还会有一些有关时态用法、人称、数的一致等注解,但这种安排体系还是太泛,太模糊,对使用者帮助不大,且常常令人费解;第二,大量引用派生词用法,极少引用词形屈折变化,而中心词的词形屈折变化是非常重要的,不应被忽视;第三,词典中出现的零量的语法条文很难解释,价值也不大,其关键是缺乏适当的计论语言的术语;第四,一些教学词典中提供非常详细的语法说明,如名词的数、可数与不可数,动词的及物与不及物,句法结构等等,这种说明对某些特殊的词是可以的,也是可能的,而对每一个词都这样处理则是很困难的,值得注意的是,语言所涉及的是普遍性而非特殊性的东西;第五,在选例句方面,其它词典中所列的例句往往是编者为了说明某一个词的意思及用法而生造、拼凑出来的,因而常常使例句失去真实性,且例句不一定具有代表性,有的句子是现实生活中根本不用的。 COBUILD词典由于来源于真实、自然的语料,且在词条的安排、语法的解释方面注意克服上述问题,因而使其与其它的单语词典不同,尤其是在例句的选择方面,COBUILD有如下特点: ──例句取自于实际语篇:例句必须取自于语料,因而代表真实语言; ──例句的典型性:例句体现人们是怎样用某个词的; ──例句的自然性:语言学习者通过查词典不仅能造出语法正确的句子,更主要的是能造出被操本族语者认为是具有代表性的自然的句子; ──例句的趣味性:不选那些日常生活中经常出现的例句,而是选那些趣味性强、用法有些独特的例句; ──例句的真实性:例句来源于真实的语料; ──例句具有启发性:语言学习者在理解例句的表面意思的基础上可以得到启发,进行深层的研究。 由于上述的种种特点,COBUILD被称作是一部代表真实、自然语言的好词典。 三、我的研究与发现 我对语料库中有关人的脸部各器官的词的研究旨在证实我的两个假设:其一,在英语中,人的脸部各器官与在汉语中一样具有丰富的表现力;其二,现有的词典中的习语或成语词典中的有些表达法已经过时,而有些新的、常用的表达法却未被收入。我找了两本影响较大、用得较多的词典,一本是EMKirkpatrick和CM Schwarz主编、于1982年出版的“Chambers Idioms”,另一体是Owen Watson主编、于1976年出版的“LongmanModern EnglishDictionary”。 带着这两个假设,我对脸部器官的10个词进行了搜索,最后决定集中研究“mouth”,“nose”,“tongue”,“tooth/teeth”4个词,所搜索到的例句数见注①。 从这些例句中我发现了许多比喻用法、习惯用法,下面所列的是我的研究发现,为了使我的发现比较直观地表现出来,并显示两本词典中出现的习语,列表如下〔第一列是Longman词典中出现的习语及意思,第二列是Chambers词典中出现的习语及意思,第三列是语料库中找到的表示该意思的例句数,第三列由小说类(简写成F)、非小说类(简写成N)、《泰晤士报》(简写成T)、口语(简写成S)四大子库组成〕,列表以后将列出两本词典中均未收入而语料库中大量出现的习语用法。 表1 MOUTH