经典语义地图模型求解的非唯一性问题①

作 者:
叶子 

作者简介:
叶子(1993-),男,上海人,浙江大学外国语言文化与国际交流学院博士生,主要研究方向为计量语言学、语言类型学(杭州 310012)。

原文出处:
常熟理工学院学报

内容提要:

语义地图模型是语言类型学中对跨语言的形义配对数据提取规律并进行可视化的一个方法,具体包含两个概念:概念空间反映跨语言普遍的各种功能在使用相同形式进行编码方面的倾向性分布;语义地图指单语中某具体语言形式的形式—功能配对。目前学者提出的方案大致可分为三类:基于图论的经典模型、加权图模型以及基于欧式空间的多维标度模型。在经典模型的求解过程中,由于需要遵守语义地图连通性假设,因此往往存在非唯一性问题(又称歧解问题),即根据给定数据,无法得到唯一确定的概念空间。后两种方法都将跨语言形义配对的频数信息纳入考虑,表面上规避了这一难题,但并未从根本上加以解决。本文将经典模型的求解看作最优化问题中的0-1规划,利用CPLEX软件求出所有可能的解。我们还将可能导致歧解的数据类型分为两类,分别对应分配式歧解和交替式歧解,并提出分配式歧解的一种表示方法——收缩法,可以将所有的歧解在一张图中展示出来。


期刊代号:H1
分类名称:语言文字学
复印期号:2021 年 03 期

字号:

      语言类型学中的概念空间/语义地图方法一般认为由Anderson(1982)[1]提出,目前已经发展为一个成熟的研究方法,用于发现跨语言形义配对中的规律。其中概念空间反映跨语言普遍的概念或功能使用同形编码的倾向性分布;语义地图指单语中某语言形式的形式—功能配对②。本文遵照本领域的研究传统,将与之相关的理论统称为语义地图模型,以涵盖上述两个概念。Georgakopoulos(2019)[2]是对该方法进行较详细回顾的文献综述③。

      语义地图研究方法一般分为两步:第一步,从数据中抽取跨语言同编码的规律并用特定的数学模型表示,简称“求解”过程。第二步,将模型可视化,简称“表示”过程。语义地图模型是表示概念空间和语义地图的数学模型。目前学者提出的语义地图模型大致可分为三类:经典语义地图模型(Haspelmath,1997、2003;Croft,2001、2003)[3-6]、基于欧式空间的多维标度分析法(multidimensional scaling,简称MDS)的语义地图模型(Croft & Poole,2008;,2010)[7]以及基于加权图的语义地图模型(Cysouw 2007;陈振宇、陈振宁,2015;Lǐ & Ponsford 2018)[8-10]。经典语义地图模型的数学基础是图论,概念空间可以定义为一个图G=(V,E)。其中V为各功能点的集合,E为连接各功能点的边的集合。各语言中具体语言形式的语义地图S为其子图。根据经典模型下的连通性假设(Semantic Map Connectivity Hypothesis)④,S是G的连通子图。基于MDS的语义地图模型将跨语言频数信息纳入考虑,通过欧式空间(一般是二维空间)中点与点之间的距离来体现同形编码的倾向性,但与基于图论的方法存在较大差别。而基于加权图的语义地图模型也是基于图论的方法,目前学者使用的该方法一般是使用边的权重来体现某两个功能使用同形编码的频数,据此来绘制概念空间。而叶子(2019)[11]在此基础上,提出使用点的权重来编码单语中某语言形式表达某功能的比例,绘制出点加权语义地图。此外,还可以使用历时图来反映某语言形式语法化的历程(吴福祥,2014)[12],历时语义地图模型也是一个基于图论的方法,其数学本质是一个有向图,在此不展开详述。

      尽管使用跨语言频数数据的MDS和加权图方法能够更好地展示概念空间中的规律性,但此时连通性原则已无法再被严格遵守。事实上,经典语义地图模型的求解在数学上其实更为困难,从计算复杂性上来说属于NP-hard难题(Croft & Poole 2008、Regier et al.2013[3])。目前绝大多数使用语义地图方法的实证研究中,都通过手工的方法,推测并表示了其中一种可能的解,而没有将全部的解表示出来。Regier et al.(2013)提出了一种渐进算法可以自动求解,但也只能求得其中一个答案,无法求得所有的歧解。因此,可以说经典语义地图模型目前尚无很好的方法能求得某数据模式下的所有可能的解。在这种情况下得到的语义地图往往是不完整的,也容易让后来的引用者误以为这就是唯一的概念空间。因此,有必要提出一种能够得到全部歧解的方法;并且,应尽力将各种可能的概念空间在一张图中展示出来,改进非唯一解的表示方式。此外,在许多其他学科,尤其是社会科学中,存在一些与其享有相同数学本质的问题,如传染病学和社会网络领域(Angluin et al.2010)[14],因此对该数学模型的求解具有跨学科的意义。

      二、经典语义地图模型的传统求解过程回顾

      在经典语义地图模型中,研究者一般会根据采集的数据去反推一张概念空间的图像。事实上,在大部分情况下,根据给定的数据都不能够完全确定整个概念空间。首先来看Haspelmath(2003)基于Hjelmslev(1963)[15]关于“树木义”概念域的一项案例,涉及3种语言中的8种形式,考察了5种功能。该案例也被Geotgakopoulos & Polis(2018,简称该文为G&P)[16]所引用,作者列出了形义配对表⑤,本文重复如表1。在形义配对表中,一般列代表功能,行代表语言形式。若某形式可以表达某功能,则在对应的格子中记√。为方便计算机处理,也可以使用1/0表示。

      该文最终给出的概念空间重制如图1:

      

      但显然可以发现,这不是该图唯一的画法,WOOD和FIREWOOD在该图中交换位置也是可以的。甚至TREE和SMALL FOREST这两个节点可以任意连接到{WOOD,FIREWOOD)两者中的一个,也就是逻辑上存在四种可能性:

相关文章: