历史上首次发表的量化各种语言历史关系的研究可能是Sapir(1916)。Kroeber & Chretien(1937)使用了74种形态和语音特征调查了9种印欧语言(1939年包括了赫梯语)。Swadesh(1952)使用词汇表,提出了词汇统计学方法和语言年代学方法。Embleton(1986)扩展了语言年代学方法。Dyen et al.(1992)使用词汇统计学方法展开了印欧语言大型数据库研究。但以上这些都不能算作真正的量化。后来的学者使用计算机操作,采用基于数据库的历史比较法,如20世纪90年代中期宾夕法利亚大学学者使用的20种古印欧语言数据库(Ringe et al.2002)。随着生物学领域一些软件的开发,基于谱系树模式的数据分析法应运而生。1999年8月举行了“历史语言学的时间深度”会议,讨论了许多量化方法的使用(Renfrew et al.2000)。Nakhleh et al.(2005)收集了大量可靠的语言特征,包括词汇、语音和形态特征等来比较不同方法对印欧语谱系树产生的效果。方法的可靠性还需要进行检测。语言学的评估方法一般借自生物学领域。评估方法主要根据拟态研究(simulation studies),虽然拟态在语言学领域不是主流方法论,但已经是语言学领域用于评估演化的重要方法,这就是演化语言学的量化研究。如何研究语言演化,语言要素量化比较是关键。 一、Jones首创比较法 语言分类方法很多,但有一种方法被历史语言学家奉为金科玉律,它与印欧语谱系树的建立息息相关,也用于世界上其他语系的研究。该方法已发展了100多年,它就是“比较法”。Harrison(2003:213)把它描述为“语言研究初期必不可少的方法”,“在缺乏书面语的情况下,它是决定语言同源关系的唯一工具”。比较法最初用于探究语言历史,因此包括两个不可分割的成分:阐明语言同源关系和构拟原始祖语。 最早使用该方法的是英国的Jones。Jones(1786)根据动词词根和语法形式的相似,宣称印欧语言存在发生学关系。他制定了一张表格,里面列出梵语、拉丁语、希腊语等语言中表示一些概念和音素的形式,表达相同意义或语法功能的音素在这些语言里形式相似。随后一个世纪,有关语言演化的研究如火如荼,相应地,比较法也飞速发展,并迎来了历史比较语言学最辉煌的时期。比较法不是简单地强调词汇相似,其特殊之处还在于强调重复出现的语音对应。20世纪下半叶出现了一种方法,与Jones的方法非常相似,即Greenberg(1993)的大规模比较法。他同时比较多种语言,如果相似即可判断为同源。不过,虽然Jones之后统计学和计算机科学有了很大发展,但Greenberg却没有提供任何检验的方法。 比较法获得了巨大成功,现在依然用于远距离语言比较。但其局限性也显而易见,一是并非所有语言材料都适用该方法。句法构拟比音位和形态构拟要麻烦得多,因为我们对句法变化知之甚少,构拟起来就更难。除此之外,还要排除掉一些词汇项,特别是象声词和家庭成员称呼语。二是原始语的语音实现过于理想化。构拟语言都是理想化的,不同学者会有不同结果。三是借词问题。如果谱系树和谱系树构拟没有排除掉借词,那就可能是过度构拟(over-reconstruct)。四是比较法本质上只局限于一定的时间深度(time-depth),如同Harrison(2003:230)所说,“时间是比较法的父母和敌手:随时间没有变化,就没有任何东西可比;在大量的时间里有大量的变化,就比较不出什么东西”。最后,比较法把语言关系理想化、简单化了。“比较法既不考虑母语内部存在分歧,也不考虑亲属语言间发生共同的变化,所以只能带领我们走很有限的一段路程”(布龙菲尔德1980:457)。虽然存在这些局限性,但该方法并非一无是处,局限性只是提醒语言学家们合理使用,避免一些问题的产生。 二、量化方法的发端:词汇统计学 历史比较语言学领域最早最有名的量化方法并非用于语音和形态句法的比较。虽然词汇不稳定,词义变化莫测,但是词汇统计学方法却假定有一些概念遍及所有语言,而且人人使用,不易变化。这样的词就是跨语言量化比较的最好代表。 第一次提出此方法的是法裔美国学者Rafinesque(1832),他比较了中美洲语言,随后Dumont d'Urville(1834)使用同样的方法比较了大洋洲语言,并假定了一种计算关系系数的方法。一个多世纪后Swadesh(1952)重拾该方法。词汇统计学就是使用标准的意义量表来测算语言之间的亲缘度,但总与语言年代学搞混。年代学只是找到子语从祖语分化的时间。Campbell(1998:177)这样写道: 语言年代学的目的是为了找到祖语分裂为子语的时间,而词汇统计学……是对词汇材料的统计操作(不一定与年代有关)。从这个意义上来看,词汇统计学的范围更广。然而,在实际运用中,二者几乎从来不做区分,经常混用。 此处使用“意义量表”而非词汇表,因为后者易引起误解。词汇统计学是创建一个大众认可的测试表,每格表示一个意义,然后比较多种语言中表示该意义的词。不过难逃主观性,而且易混入偶然相似词和借词,因此词汇的选定难上加难,“存在一些基本词汇或核心词汇,相比其他类型的词,这类词不易被替换”(同上:177-178)。因此,Swadesh(1952:455)的限数词汇统计法可以说在当时解决了一大难题,“找到一个含有200个相对稳定词汇项的表不难,主要是身体部位词、数词、表示简单自然物和简单活动等的词”,“测试表里的词语必须是普通的非文化词,即,它们必须是世界上随处可见并且人人都很熟悉的东西,不仅仅是专家或有知识的人”。