引言 任何语料库研究均开始于语料库体的建立,语料库的设计及选材几乎控制以后所要做的一切基于语料库的研究工作,研究结果的好坏只与语料库的建设质量有关。 一 谁应该做语料库的设计者? 设计者应根据常识知识对所选材料的一些特点进行把握。语料库的规格要求——所选材料的类型和比例的确定根本不是语言学的事而更多是文化社会学方面的内容。在语言学家看来,语料库语言学就应该描述和分析他们所接触过的所有语言实例。在语料库语言学发展初期,需由语言学家做文本的选择工作,当这门学科的影响已经很大时,就应该把这个工作交给以语言研究为主的社会科学家。当然,语料库的规模和设计应考虑文本的选择标准。 当我们不确定自己的设计方案的优劣时,我们必须依靠一个已出版的有关语料库的内容确定的表去做。(例如,Renouf,1987)。用户和评论者可以把语料库的结构及平行性看作是和语料库中的语言实例相分离的东西。 接下来我将用最通用的术语来谈谈我对建立文本语料库的一些想法。 二 通用语料库 我首先考虑的是建立语料库的目的。一般情况下,建立语料库往往是选出一些好的语言实例可供多方面使用,这就不再多列举。但在产品开发的一个阶段或一个科研项目的研究过程中,可能会有些例外。在本章中,我将只谈及通用语料库的建立,而特殊用途语料库的建立也可用相似的方法。 一个通用语料库的参考价值很大,在未来几年内这种作用可能会迅速增强。现在,人们普遍接受这种看法:词典及语法书上的内容趋向文档化,这是语言研究成熟化的一个重要标志。在信息科学领域,各学科的人们越来越认识到:语料库作为生活语言的抽样可由高级的计算机提供,这将给人们的研究开辟新的途径。 三 语料库建立的框架 建立语料库的框架很简单。首先确定语料库的规模、优先级、参考目录等,然后根据要求挑选文本。下面将详细讨论每一个步骤,但各步骤都受以下两个非常实际的问题影响。 四 电子版形式 一是将语料库存入计算机中必须有电子版形式的材料,这种材料或者从印刷品中得到,或者直接从计算机处理过的文本中得到(印刷品、词处理材料、电子邮件等)。当前,有三种常用的文本输入方式: a.整理已经以电子形式存在的材料 b.用光读扫描方式录入转换(机读) c.通过键盘输入方式转换 在很多情况下,这三种方式都用得到,因为不同类语料适用于不同的方式。例如,手写体材料和话语记录需要键盘输入法;但对于新闻材料,如果是电子版形式,可以很经济地选入。对于大量的用传统方式印刷的书籍,最好选择扫描的方法。因为万能扫描仪(能读任何型体的文字)目前还很少且用价很高,所以对项目经理来说鼓励人们使用这种扫描仪将很重要。只有这样,万能扫描仪才能更加大众化,一般用户也能使用。扫描仪将会一直很有用,因为如此多的印刷材料永远也无法用键盘输完。然而,即使用现代的出版印刷方法,也需要一个电子化阶段。文本的作者视这一个阶段只是一个实现结果的手段而很少保存副本;研究者应该能够得到合作,从而得到越来越多的印刷材料。 五 许可权 另一个实际的问题是得到作者的许可把文本转换成电子版形式,并选用各种论文、报告、及其它出版物中的材料,这是法律较敏感的地方。尽管人们从版权编辑处得到相当可靠的感觉,然而很好地、合法地保护一个大规模语料库的工作量是巨大的。如果版权所有者完全理解为什么有人想用他们的文本而且知道采用什么措施可反盗用,那么就可以回避繁杂而无效的劳动。如果这个问题不能在世界范围内得到解决,情况可能会比较糟糕。对于一些特殊的情况可以有一些方法,但在语料库的设计过程中,这个隐含的阴影却时刻笼罩在设计者的心头。一些迹象表明欧洲委员会对这个问题有所警觉,并在用它的影响力去进一步加强欧洲语言的语料库建立。对参考他人资料感兴趣的出版商正考虑与作者签定正式的授权合同,这样在未来就会减少是否合法的纠纷及不必要的案卷工作。 六 设计 对这些问题的认识越来越清楚,我们更应该注重文本选择标准的确立。我们主要用常识知识,但有一些从我们经验中得到的启示很值得我们思考。 口语和书面语:也许最长远的决定应该是:所建的语料库应该只包括书面文本,或是只包括口语副本,或是两者都包括。大多数语料库回避口语的诸多问题(除了几个突出的特殊例子),一个语料库随便声称自己可以反映“语言状态”是最不幸的事。相当多的语言学者和语言老师相信口语形式的语言要比书面形式的语言更能反映语言最基本的组织形式。但也有很多作者持不同观点并写文章对此进行批评。根据自己的经验我倒认为即时的讲话无法找到替代物,在1961年我决定对谈话进行搜集并建成语料库,这是我所做过的最值得庆幸的事之一。那个时候我就深信自动生成话语副本已为期不远了,现在仍然如此。 类似话语的语料:在做这个项目的早期我们不可能搜集口语材料,但可以尝试着搜集电影脚本、剧本等,好象在某些方面用这种方法弥补了一些不足。但在通用语料库中,用这种方法获取的语料库,其价值就很有限。因为它们被视为语言,在人工环境下用书面形式刺激话语。每一个都有其明显的特征,但哪一个也不能真实地反映真实的对话。而对很多人来说,真实的对话语言才是口语语言的精髓。在一个文本里如果全面记录了群众大会讲话、问讯、法庭案例审讯、收音机广播和电视转播讲话等,那将是一个特殊的整合体。尽管人们所用到的即席演讲语言和思考后所用的的语言相混合是很正常的:一些脚本和大声读出的叙事文,但是这种记录不一定就代表一般谈话所用的语言。