语音对应规律的计量研究方法

——苗瑶语方言语音对应规律示例

作 者:
黄行 

作者简介:
黄行 通信地址:100081 北京 中国社会科学院民族研究所

原文出处:
民族语文

内容提要:

本文利用苗瑶语语料库的材料,通过统计任何两个主、客位方言之间对当的音类次数、客位方言音类的先验随机分布概率,和加权对当比率与随机分布概率差异的显著度检验,认为如果客位方言某音类和主位方言的加权对当比率显著高于其随机分布概率,这种差别是因为两种方言的同源关系造成的。据此采用一种可以自动建立语音对应规律的算法,全面建立和手工比较有一定等效性的苗瑶语方言声、韵、调的语音对应规律系统。最后还讨论了语言计量研究和传统研究不同的、基于概率论而不是决定论规律性的语言观和方法论的意义。


期刊代号:H1
分类名称:语言文字学
复印期号:2000 年 04 期

关 键 词:

字号:

      一 计量生成语音对应规律的原理

      语音对应规律是断定语言系属关系的基础,所以是语言比较研究首先需要得到的数据。汉语有超方言的汉字的关联,如果可以认为汉语方言之间相同的汉字音义对应,词(语素)同源,那么方言之间的语音对应规律就可以比较容易地通过汉字字音的关联确定。对于像苗瑶语那样没有超语言(方言)文字的语言,不能利用文字的关联确定语音对应规律,因此只能从词的其他同源信息发现和建立这类语言的语音对应规律。

      语音对应规律作为一种词(语素)隐性的语音特征是具有概率依据的。(注:语音对应规律的概率基础可参见陈保亚的《语言接触与语言联盟》(下篇第五章),语文出版社,1996年。)通过概率分布确定语音对应规律是基于这样的假设:语言(方言)之间有对应关系的音类应该呈非等概率的分布,而没有对应关系的音类则应表现为随机的等概率的分布。因此可以通过对当音类的概率统计确定语言(方言)之间的语音对应规律。

      具体来说,甲方言(为了方便,这里把任何语言或方言都视为方言)某音类(声、韵、调)在已确定的词表中会出现在一批词中,这批词在另一个乙方言中对当(注:“对当”是指方言之间词的语音的随机对应,而“对应”特指方言之间词的语音的同源对应。)着一些不同的音类。音类在词表中的出现次数/ 音系全部音类次数的比率即为这一音类的随机分布概率。如果甲方言某音类与乙方言某(些)音类对当的比率不显著(注:这里所说的“显著”是有统计学操作定义的。)高于随机分布概率,即可认为它们之间没有同源的对应关系;反之,如果甲方言某音类与乙方言某(些)音类对当的比率显著高于随机分布概率,即可把这种非等概率的分布解释为主要是因同源关系造成的,因此就可以认为它们之间具有语音对应关系。计量研究可以通过以下程序方法自动地建立语言或方言之间的语音对应规律。

      1.首先在多方言词汇语料库中确定任一方言为主位方言,(注:主位方言和客位方言沿用郑锦全教授的用法,参见郑锦全《汉语方言沟通度的计算》,载《中国语文》1994年第1期。 )确定另一个或若干个方言为客位方言,并要求主位方言和客位方言之间有一种唯一码在语料库中相系联,这种唯一码通常是各方言共同的词义字段中的数据。

      2.用主位方言的第一个语音单位逐词地在客位方言中检索,得到主位方言这个语音单位和客位方言所对当的一些语音单位的集合。之后用同样的方法对主位方言的第二个、第三个、……直至最后一个语音单位重复相同的检索工作,得到主位方言全部语音单位和客位方言之间的语音单位对当的总集合。

      3.统计客位方言每个语音单位和主位方言所对当的语音单位的次数和加权比率(加权比率的统计方法见本文第二部分),加权比率显著高于随机分布概率的语音单位可能是有对应关系的;如果该语音单位并未显著高于随机分布概率,则不存在对应关系。加权比率与随机分布概率的差异是否显著可以通过Z检验(Z test)的统计方法确定。

      在我们的研究中,语音对应规律主要是靠方言间语音的分布概率确定,而不是根据直观的音值相似性判断。例如主位方言(先进苗语)的[nts]和客位方言(复员苗语)的

      

      对当,并且加权比率显著高于随机分布概率,所以这条语音对应规律能够成立;而主位方言的[nts]也和客位方言同音值的[nts]对当,但是客位方言[nts ]的加权比率并未显著高于其随机分布概率,虽然两个对当音类音值相同,我们也没有理由认为这是一条语音对应规律。

      二 计量生成语音对应规律在苗瑶语方言比较研究中的应用

      设先进苗语(川黔滇苗语的代表)为主位方言,养蒿苗语(黔东苗语的代表)为客位方言,主位方言某音类和客位方言某些音类在同一批词中有一定次数的对当,但是主位方言和客位方言音类对当的绝对次数尚不能证明是否为同源对应的概率,因为每个音类在词汇中先验的次数分布是不平衡的。例如:如果仅根据对当的绝对次数,养蒿苗语声母[p]对当先进苗语声母[p]为88次,养蒿苗语[ph ]对当先进苗语[p]为6次,并不能因此断定养蒿苗语[p]与先进苗语[p ]的对当更为必然,养蒿苗语[ph]与先进苗语[p]的对当更为随机, 因为养蒿苗语[p]在词库中的绝对出现比率本来就比[ph ]的出现比率高(养蒿苗语声母[p]在词库中共出现410次,声母[ph]在词库中共出现87次)。只有通过加权才可以抵消这种因语音在词汇中随机分布不平衡引起的比率差异,从而反映对应规律的比率差异。

      加权统计的方法为:相对出现次数(客位方言与主位方言某音类的对当次数)/ 绝对出现次数(客位方言某音类在音系中的出现次数)=加权出现比率。如:养蒿苗语[p]与先进苗语[p]的加权对当比率为:88(养蒿苗语[p]与先进苗语[p]的对当次数)/410([p ]在养蒿苗语词库中的出现次数)=21.46%;养蒿苗语[p]的随机分布概率为:410(声母[p]在词库中的出现次数)/7049 (养蒿苗语全部声母的出现次数)=5.82%。

相关文章: