吴语五地词汇相关度的计量研究

作 者:
杨蓓 

作者简介:
杨蓓,女,博士,研究兴趣为方言学、实验语音学、音系学及语言习得。复旦大学中文系 上海 200433

原文出处:
语言文字应用

内容提要:

本文对现有的不同方言词汇相关度计量研究作了述评,试图通过对词汇的语音表现形式进行语素相关和语音相关的计量研究,提出一种新的词汇相关度的计算方法,并用这种方法计算了吴语五个代表点:上海、温州、衢州、金华、临海的784条词汇的相关度。研究结果被绘制成词汇变化的趋向分布图和五地词汇接近率的矩阵,据此探讨了词汇变化的规律。


期刊代号:H1
分类名称:语言文字学
复印期号:2003 年 05 期

字号:

      [中图分类号]H13[文献标识码]A[文章编号]1003-5397(2003)01-0120-11

      零 概念的界定

      (一)词段:从话语语流中抽取出来的语言单位,是词的音段表现形式,包括一个声母和一个韵母,不包括超音段的声调。虽然在同一语音系统中不能辨义,但在不同语音系统的比较中,在词目确定的前提下,语义已经确定。

      (二)词的相关度:词的相关指同一个词目在不同地区说法异同的程度:所有的词段都相同则说这个词在这些地区的说法相同,相关度为1;完全不同的,相关度为0;部分词段相同或某些词段在语音上有相关的对应,则说这个词在这些地区有相关性,相关度可以通过一定的计算方法求出。

      (三)词的读法:指一条词目在某地的语音表现形式,包括所有语素的语音表现形式。记录时,用国际音标表示,不用汉字表示。

      一 词汇相关度计量研究述评

      对方言间和不同语言间词汇接近率的计量研究,曾有过下述六种方法:

      1.1 语言年代学(glottochronology)

      日本学者王育德1960年发表用语言年代学方法研究汉语五大方言接近率及其分化年代的成果。该研究主要对比词的文字表现形式的异同,不涉及语音的对比。王育德所使用的统计工作包括两部分。第一部分是比较二百个基本词汇在各方言中的异同数,所用的方法是算术统计法。第二部分根据M.Swadesh提出的计算公式,计算五大方言分化的年代。

      1.2 相关系数统计法

      这种方法由郑锦全于1973年最早提出。他用“皮尔逊相关”和“非加权平均系联法”计算不同方言的字音和词汇文字表现形式的亲疏程度,同时提供方言分区的方案。参加比较的词目共905条。在相关系数统计结果的基础上,再做聚类分析。

      郑锦全的相关系数统计法利用计算机处理庞大的方言资料,用树形图对18种方言间的亲疏程度作出直观而细密的描写。显然,相关系数统计法比算术统计法要精密、合理得多。不过它有两个主要缺点:一是没有考虑词频这个重要因素;二是比较词汇异同,只考虑词形异同,并不顾及词内部词根或中心语素的异同。如“太阳”和“日头”词形不同,两者的相同率为0;“太阳”和“太阳佛”词形不同,两者的相同率也为0。实际上“太阳佛”的中心语素跟“太阳”完全相同,将两者的相同率当作0来处理是不合理的。1.1中所述的算术统计法也有这两个缺点。

      王士元和沈钟伟于1992年撰文批评郑锦全的方法在语言学上和计算上的不合理性,提出在汉语方言分类上,计算的基本单位应该是语素,而不是词。他们进一步完善了相关系数统计法和聚类分析法,并且对吴语内部三十三个点的方言词汇的亲疏关系进行了计量研究。

      1.3 算术统计法

      这种方法将不同方言的词汇的同或异,用加减法进行统计,然后以百分比计算接近率。詹伯慧和张日升曾根据他们所编《珠江三角洲方言词汇对照》(1988)的材料,比较北京话和粤语词汇的接近率。参加比较的词汇有1001个,两者相同的只有140多个,仅占10.4%。

      王育德和詹伯慧等人使用的方法都是算术统计法,但是所得结果相差甚远。原因显然是两者参加比较的词汇的数量不同,王育德所用是两百个基本词汇(结果70.77%),詹伯慧等人所用的词汇则有一千个至八千个。可见基本词汇相同率较高,一般词汇相同率较低。

      1.4 概率法

      借词和同源词向来是比较难区分的。陈保亚在《论语言接触与语言联盟》(1996)中试图用概率的方法解决这个问题。陈保亚认为,语音对应规律不能作为确定同源关系的充分条件,这是因为语音对应规律本身不能说明最早时间层次的关系词是同源词还是借词。但语音对应规律的另一个重要作用是排除偶然相似。当两种语言的一系列词在语音上有对应时,很难用偶然巧合加以解释。于是,他根据声母、韵母和声调的对应规则,用卡方分布和泊松分布,计算出某词在两地属于同源词的概率。陈保亚采用M.Swadesh1952年从印欧语言中挑选出的人类语言中最稳定的200个词和1955年从这200个核心词中筛选出的100个更稳定的核心词作为分析材料,并把100个最稳定的核心词称为第一阶词,把第二个100词称为第二阶词。通过概率计算,陈得出结论:侗台语和南岛语的关系词第100词高于第200词,应当承认侗台语和南岛语有同源关系。

      这种计量法将词汇和语音的因素结合在一起考虑,从音类的必然变化和音素的偶然变化入手,运用概率将这两种变化区分开,将同源词在语音上的变化归为音类的必然变化;借词则归为偶然变化,有一定的创意。但是它把声调当作和声韵母同样重要的因素考虑却值得探讨。我们认为考虑“有共同语义的词段”这个因素比较合理。

      1.5 矩阵分解(matrix decomposition)

      这是Sanzheng Qiao和William Shi-Yuan Wang于1998年提出的方法。这种方法是用一对矩阵分解任何的无根双叉树。这个方法也可以用矩阵生成树。作者以欧洲语言基本词汇的接近率计算为例,阐述了这一研究方法。矩阵分解是应用计算机,在所有的合成可能中寻找一种最佳的树行合成图。这与早先的聚类分析不同。

      1.6 加权平均法

相关文章: