语料库(corpus)是语言研究和词典编纂的重要工具。许多现代语言研究中心和词典编纂中心都把语料库建设作为至关重要的基础工程来对待,利用丰富的语言资源,开发科学性更强的语言研究成果和词典新品。例如,英国伦敦大学的英语用法研究中心利用自己创建的“国际英语语料库”(International Corpus of English,简称ICE)编写了《牛津英语语法》(Oxford English Grammar,Sydney Greenbaum 著, 1997);英国伯明翰大学英语系与柯林斯出版公司合作建立了“英语语料库”(the Bank of English), 以此为基础编纂出版了颇具创新意义的《COBUILD英语词典》(COBUILD Dictionary of the English Language,1987);南京大学双语词典研究中心与商务印书馆合作,建立了CONULEXID语料库,并开发了有关应用软件, 作为《综合英汉大词典》的高效编纂工具。 一、语料先行与语料库建设 词典编纂是一个深入研究词汇诸多层面、展示各种语言信息的过程。这项工作必须以丰富、翔实的语言材料为基础。古往今来,词典编纂界的有识之士都高度重视语言材料的收集。各种词典类经典之作均以可靠的语言材料奠定基础。语料先行应该说是词典编纂工作的基本原则。 在早期词典编纂中,语言材料的准备主要通过人工阅读书籍摘录例句,做成卡片(slips)后用于分析词义和作为书证。 英国词典史上的经典之作——约翰逊博士编纂的《英语词典》就是这样做的。首先,这部词典的收词,原则上以收集到的书证为依据,一般不收录仅在某本词典中见到而别无佐证的词,剔除了以往词典中一些以讹传讹的“鬼词”(ghost words)。再者,这部词典援引了11.4万条书证来阐明词义、 说明用法、展现优雅文体,对英语语言规范的确立起到了很大的推动作用。 1879 年开始编纂、 1928 年全书才出齐的《牛津英语词典》(Oxford English Dictionary),则动员全社会力量, 不遗余力地搜集资料,历时近三十载,制作引文资料卡片500多万张, 为这部按历史主义原则编纂的大型语文词典奠定了坚实的基础。 我国辞书编纂很早就重视书证的使用。据有关学者统计,《说文解字》中引用儒家著作的词句就达1085条,《康熙字典》中的书证则更为丰富。20世纪出版的《辞源》、《汉语大词典》等严格遵循历史主义原则,在书证使用方面提出了更为严格的要求,对忠实记录祖国语言历史、展示词义演变过程起到了积极的作用。(关于书证的作用和选配,详见李开《现代词典学教程》第328-339页。) 进入计算机时代,词典编纂中语言材料的准备一般通过建立大型语料库来完成。早在20世纪60年代,英国伯明翰大学英语系就意识到计算机技术对语言研究的巨大辅助作用。他们首先建立OSTI项目,把13.5万单词的非正式会话语料整理成电脑数据,研究词汇搭配问题。70年代添进3.5万单词的课堂会话、100万单词的应用科学文字资料和75万单词的经济学文字资料。随后发现,百万单词量的语料对于句法研究来说可能足够了,但对于词汇分析和语义研究来说是远远不够的。进入80年代,他们与柯林斯出版公司合作,建立了“英语语料库”,逐步扩充到2 亿单词的规模。在此基础上开发了一系列英语学习词典、用法词典、语法书籍及其他英语学习书籍。 20世纪90年代初,牛津大学出版社、朗文出版公司、钱伯斯-哈勒普出版公司与牛津大学计算机中心、兰开斯特大学、英国图书馆通力合作,在英国工贸部以及工程与自然科学研究委员会的资助下,建成了“英国国家语料库”(British National Corpus,简称BNC),所收语料总量达1亿单词。1995年问世的新版《牛津高级学生词典》、 《朗文当代英语词典》、《钱伯斯基础英语词典》均使用了这个语料库的最新资料。 从1994 年开始, 该语料库及其检索软件SARA (SGML Aware Retrieval Application)就制成光盘,向欧洲发行;2000年开始, 这套软件的第二版已授权牛津大学人文学科计算机中心向全世界发行。 毫无疑问,在电脑设备大为普及、语料库技术比较成熟的今天,词典编者如果不重视语料库建设,收词释义仍因袭旧作,例句仍随意编造,那显然是不妥的,是与现代词典编纂的科学性要求相差甚远的。 二、语料采样与语料库分类 语言是一个无边的海洋,语料库即便达到上亿单词的规模,也只是语海之一粟。但如果要继续扩大语料库规模,并且要求检索速度足够快,普通电脑设备就不能胜任。在现阶段,就普通电脑的处理能力而言,语料库的规模以1~2亿单词为宜。如果规模再大,运行速度就会过于缓慢。 然而,要用有限的语料反映语言实际使用情况,就必须制定周密的采样计划,让所选材料具有一定的代表性。首先应当对语言材料进行系统的分类,例如划分出书面语和口语,普通语言与专业语言,标准语与地域变体(包括方言),成人语言与儿童语言,早期语言和当代语言等类别;然后根据各类语料在语言中所占的大体比重,确定合理的采样比例。例如: