相对于语音和词汇变化而言,语法的变化通常被认为是一个缓慢的过程,连本族语者也往往难以觉察。这种观点有一定的道理,但是通过对分年代定期抽样建立的对应语料库的研究发现,近几十年来英语语法发生了相当大的变化。此类对应语料库使得以下研究成为可能: ●观察英语书面语的实时变化 ●对比不同语体之间的变化率 ●对比美国英语和英国英语这两大类英语之间的变化率 1.布朗家族语料库 为阐明上述几类研究,本文拟采用所谓的“布朗家族语料库”。该名称源自最早的英语电子语料库,即“布朗语料库”。该语料库于1962至1964年间由布朗大学收集建立,自建库以来已被研究人员和师生广为传用。其库容略超过一百万词,分成500个书面语文本,其中每个文本约2000词。 与布朗语料库相对应的英国英语语料库是“兰开斯特—奥斯陆—伯根语料库”。该语料库为布朗语料库的对应语料库,尽可能地参照了布朗语料库的各项特征。它与布朗语料库一样,也包含500个书面语文本,并参照布朗语料库的设计分成了15类语体,各语体类别比例与布朗语料库一致(见下页表1)。文本的来源也与布朗语料库一样,均从1961年首次出版的文本中分层随机抽样选取。 这些语料库,包括后来建立的类似语料库,均以建库的大学来命名,为方便起见,若语料库由多个大学共同建立,则用大学名称的首字母缩写来命名,例如兰开斯特一奥斯陆—伯根语料库被称为LOB语料库。
自二十世纪六七十年代以来,计算机的计算和存储能力均有了长足的发展。以目前的标准来看,布朗和LOB语料库容量偏小,而且语料仅限于书面语。尽管如此,这两个语料库仍然具有较大的研究价值,因为它们完全对应,而且很容易获取。世界各地的研究人员都可以获得这些语料库,并可根据其研究需要进行标注和分析。 经研究发现,若以语体为分类单位,由于各语体类别包含的文本数量较少,会影响分析的信度。因此,我们将相近的语体合并为如表1中第三列所示的四个子语料库(即新闻类、一般类、学术类、小说类)。 表2汇总了布朗家族语料库各库内容,即各子语料库包含的文本数目和词数,下文分析都将以这些子库为分类单位。
布朗语料库和LOB语料库建成后,布朗家族又增添了新成员,即弗莱堡—布朗语料库(简称为Frown)和弗莱堡—兰开斯特—奥斯陆—伯根语料库(简称为FLOB)。这两个语料库分别与布朗和LOB语料库完全匹配,采样对象分别为1992年出版物(美国英语)和1991年出版物(英国英语)。这四个语料库的建成使我们能够追踪从二十世纪六十年代至九十年代之间一代人的英语用法变迁。为了进一步研究标准英语书面语近几十年来的变化,如表3所示又新建了一批对应语料库。
在表3中①,白色格子代表已完成的对应语料库,且除了采样时间和地域出处外,均与最初的布朗语料库完全相匹配。左边两个带阴影的语料库(BLOB-1901与B-布朗语料库)目前尚未完成。在本文的讨论中用到了BLOB-1901语料库,因其中只有三分之一的对应语料可供使用,故该语料库的词频数据均按比例扩大,以使其与其他语料库具有可比性。右边两个略带阴影的语料库(BE2006与AmE2006)的文本从互联网上采集,虽然他们的语体类别与布朗家族语料库完全匹配,并严格按照布朗家族语料库的特征来设计,但文本的网络来源仍然会影响它们的语言使用风格,从而影响它们与其他语料库的可比性。表格的最右边一列宽度较窄,表明布朗家族语料库中该新成员仅代表了1991年到2006±2年间的语言变化,时间间隔的跨度仅为之前的语料库的一半左右。因此,由带阴影的语料库中分析得出的结论需谨慎处理。表中采样时间表示为1931±3等,表明文本抽样年代为1931年前后三年,即1928年至1934年的出版物。我们认为,像以往建布朗、LOB、Frown、FLOB等语料库那样仅从一年的出版物中采集文本样本的实际操作性不强,不仅费时,而且很困难,尤其是布朗家族语料库中较早年份的语料。此外,我们认为七年这么短的时间跨度中语法的变化几乎可以忽略不计。因此,近年来新建的语料库均从某年份以及前后三年的出版物中采样。 2.语言变化在频率数据中的反映
本文将以介词upon为例来说明布朗家族语料库中的数据如何体现语言变迁。英国英语中upon的使用频率在1901年至2006年之间呈现出了明显的不断下降趋势。结果,该词目前的使用频率尚不足在二十世纪初的六分之一。