汉语方言自动聚类与分区及相关计算方法

作 者:
江荻 

作者简介:
江荻,中国社会科学院民族学与人类学研究所,江苏师范大学语言科学与艺术学院。

原文出处:
暨南学报:哲学社会科学版

内容提要:

本文回顾了学界对汉语方言之间相互关系的三种计量方法:特征统计、词源统计和词汇相似度计量,指出这三种计量方法采用的是非整体的、语音和词汇上受限的考察方法。文章阐述了一种更适用的计算模型,即Levenshtein Distance算法(莱文斯坦距离,或称编辑距离),该方法对语言或方言之间线性字符串的语音相似性和词汇对应性具有协调功能,并蕴含特征比对和词源概率效用。本文自动分区实验汇集了南方吴、闽、粤、湘、客、赣、徽、淮8个分区的78个方言,官话方言有东北、北京、冀鲁、胶辽、中原、兰银、西南108个方言,共计186个汉语方言点。每个方言收集了斯瓦迪士100个基本词,并对方言之间展开相似性计算。计算结果与传统分区基本一致,但更为精准。


期刊代号:H1
分类名称:语言文字学
复印期号:2022 年 08 期

字号:

      一、方言自动分区研究方法概述

      确定方言之间关系是个极为复杂的事情,除了社会历史文化因素,主要涉及词汇异同、语音对应关系和词形借用,这是一个费时费力的缓慢发现过程。为此,近30年来,方言学界探索了一系列数学统计和计算机算法辅助研究方法来改善相关研究,称为方言关系计量法。计量法一方面试图取得更精细的方言关系数据,另一方面尝试简化研究手续和加快获取研究结果。迄今,主要有以下三类计量方法:特征统计法、词源统计法、词汇相似度计量法。

      (一)特征统计法

      分类学中,特征是事物分类的基本依据。由于特征能反映事物的结构和形式,同时特征又是人们在事物比较研究中普遍熟悉的内容,因此提取特征来反映事物之间的异同产生了特征统计观念。最早开展汉语方言特征统计的学者有郑锦全(1988)①和陆致极(1987)②等学者,我们以前者的研究为例。郑锦全(1988)的目的是考察汉语方言之间的亲疏关系,通过对汉语方言多个特征进行观察和统计来实现方言分类。郑文考察的特征主要有词汇异同、语音异同,后者又分为声母特征、韵母特征和声调特征。

      依据特征分类有以下几个步骤,选择特征、特征赋值(量化)、特征相关关系分析和聚类分析。郑锦全(1988)以《汉语方言词汇》为统计材料,③其中收录了905个普通话词条和18个方言的相应词汇形式,并由这两个参项构成二维数据表,即横行为方言点,纵列为词汇形式。然后用1/0(“有/无”)对字段赋值,例如“太阳”,北京、济南的赋值为1,西安、太原的赋值为0;“日头”,北京、济南的赋值为0,西安、太原的赋值为1。参见下页表1。

      

      由于各方言词汇差异,905个词条分解为6 454个词汇变项。最后,将赋值数据代入相关度计算公式(本文略),得出方言之间的系数,进一步绘出相关关系树图,参见图1。

      

      统计语音特征的时候,由于词汇长度特征不同,用词不一,郑文改用《汉语方音字汇》为材料。对每个声母特征按照出现频次进行统计,这跟上文词汇赋值方法不一样。郑氏还特别注意共时语音跟古代语音的衔接关系,这一点是采用共时音值跟历史音类对比方式开展的。例如来自中古p的方言p跟来自中古b的p分为两类。观察表2:

      

      竖列第一个声母表示历史音类,第二个声母表示方言声母音值,横行是方言点,代表《汉语方音字汇》17个方言点,④表内则是声母在方言点出现的次数。然后计算各方言声母相关系数,最后绘出根据声母特征得出的方言关系树图。参见图2。

      特征统计法是一种显性方法,因此一直为人们所重视。例如,杨鼎夫、夏应存的《闽方言分区的计量研究》(1994)是一篇以声韵母特征为对象的方言分区论文,⑤涉及35个闽方言点的亲疏关系研究以及分区。杨蓓(2003)⑥虽然还是以语音特征为主,但采用的是吴语方言的声学信号作为实验对象,并辅以词汇相关度予以论证。王士元、沈钟伟的《方言关系的计量表述》(1992)⑦是一篇概述性论文,以吴方言的44个亲属称谓词汇形式为例讨论分类分布现象,较为全面地对特征选取、计算方法和操作过程做了详细叙述。项梦冰的《聚类分析在汉语方言研究中的运用》(2015)⑧也是很典型的特征统计,但文章焦点却是对聚类分析方法的检测,判断其有效性。谢建猷、张宗(2014)⑨以广西方言为对象开展方言分区研究,并将分析结果与人工分区进行对比,结论是,对方言特征的人工统计分区跟计算机计量分区可以实现殊途同归,即二者都可实现分区目的。这项对比研究肯定了计算机分类和分区的作用和价值,是一次相当有益的尝试。

      (二)词源统计法

      词源统计法源自语言年代学(glottochronology),用来衡量相关语言从共同母语来源分离出来的程度,由于它是对假定有亲缘关系语言中一组组词汇项目的变化速度进行定量比较,从而推算这些语言分离后的时间差距,因此也叫做词汇统计法(lexicostatistics)。

      语言年代学最初由斯瓦迪士(Swadesh 1952)⑩提出,他受到化学上发明的碳-14年代测定法的启示,认为,一定存在一组基本的词来描述存在于各种语言中的普遍现象。这种基本词汇包括表示身体部分的词(头、手等),表示自然物体的词(月亮、山脉等),表示共同活动的词(来、睡觉等),以及表示一些其他范畴的词。实际上,要确定这样一种基本词汇是相当困难的。斯瓦迪士先提出了200词,后又减少到100词。(11)相对于历史语言学的比较法,语言年代学算是一门新的技术。语言年代学自20世纪50年代初提出后,由于其本身固有的一些严重缺陷,长期以来该方法一直未获得较大成功案例的支持,加之用途有限,引起的争议也不少,所以往往被人们忽视,使得该方法未得到广泛运用。进入21世纪以来,由于生物学种系发生树理论的不断完善和计算机的巨大进步,从语言年代学概念派生出更单纯的词源统计法又开始受到历史语言学家的重视。

相关文章: