1.语义地图及相关分析方法 在语言类型学研究中,“语义地图”(semantic maps)是一个十分重要的跨语言调查数据的分析方法,如Haspelmath(1997)的经典案例,即关于“不定代词”(indefinite pronouns)的语义地图;Croft(2001)一书中大量应用语义地图作为分析工具,并提出了“语义地图连续性假说”(Semantic Map Connectivity Hypothesis;参看Croft,2001:96)。 在汉语学界,王瑞晶(2010),张敏(2010),陆丙甫、屈正林(2010),吴福祥(2011、2014),郭锐(2010、2012a)等对语义地图理论的发展有较为详细的介绍,也探讨了它对汉语研究的作用,并就一些案例做了精到的分析。2015年论文集《汉语多功能语法形式的语义地图研究》的出版,标志着汉语语义地图研究进入了一个较快的发展时期。 迄今为止,国外已发展出两代语义地图模型,按王瑞晶(2010)所说,它们分别是第一代“经典语义地图”和第二代“多维扫描”(MDS)地图(参看Croft & Poole,2008)。限于篇幅,本文不再详述。不过这两种地图并不是相互替代的关系,而是相互补充的关系,第一代地图给出点与点之间的联系关系,有利于分析它们之间的蕴涵关系,第二代则给出空间中点与点之间的远近距离,有利于进行聚合分析。如能将二者合而为一,显然更为方便。 另一方面,早期的地图分析中存在着一些缺陷,主要表现在地图结构的不完备,以及地图构造方法上的主观随意上。当代的研究者希望通过数学计算的方法,使地图更为客观准确地反映语言调查的数据。 Cysouw(2003)曾构造了一个关于“人称标记”的地图,然而他并不满意;在Cysouw(2007)中他详细讨论了地图的构造原理与方法,试图在经典语义地图中将点与点之间的频率高低反映出来。下面是我们据其调查所做的数据表。
说明:其中第一行表示共有八个项目,其意义为:1言者,如I;2听者,如you;3言者与听者之外的第三者,如he/she/it;12包括言者与听者,如we(复数包括式);123所有各方,有多个听者,如we(复数包括式);13不包括听者,只包括言者和第三者,如we(排除式);23不包括言者,只包括听者和第三者,如you;33不包括言者和听者,只是多个第三者,如they。 表中每一行都代表语言中存在的一个组合,它在八个调查项目中有不同的yes(用“+”表示)和no(用空白格表示)分布情况,一共有35种不同的组合。每一种组合第一列的频率数字代表拥有这一意义组合的语言形式的数字。右边的最后一列“yes”反映每行中所共现的“+”号的数量。 将表中数据全部反映出来,就得到图1这样一张完整加权的语义地图。这图非常复杂。但是地图越复杂,语义关系反而越不清晰,可以从图中找到的隐性规律越少。这是因为图中有不少“回路”(loop),每一条回路都会破坏规律性。
之所以会形成图1这样的局面,是因为在调查的数据中,混入了一些“噪声”,即有的联系在调查中很少出现,它们不反映必然性规律,而仅仅是反映一些偶然现象,即在历史演变中因为某个特殊的原因造成的特殊的现象,但它们对“规律性”的数据会产生干扰。我们需要对这些噪声进行过滤。 Cysouw(2007)的办法,是将上述语义地图中的某些连线删除,从而构成更为简约的地图。我们称之为“降噪”的过程,如图2:
这些地图的简约程度各不相同,究竟哪张图更反映语言事实?更为重要的问题是,为什么是保留这些连线,而不是其他的连线?“降噪”的依据是什么?这是一个大问题。 Cysouw(2007:19)的操作方法中有一个漏洞。如在图1中,“12-13”这条连线的出现次数为“181”,意味着有181个形式中,同时出现12和13的语义内容。共现次数越高,则两个项目之间的连线越粗;反之,连线越细。这一次数本应作为删或留的标准,但虽然“12-13”之间的连线相当粗(是图中第三粗的线),Cysouw却将它删除了,不再出现在图2中,为什么? 郭锐(2012b:115-116)对计算方法做了改进,引入了“关联度”的概念;马腾(2015:201)详细解说:两个点(基元)之间关联度的计算公式为“兼有数/总数”,其中,点A、B的兼有数指A、B的共现次数;而点A、B的总数指A、B各自出现次数之和,再减去它们的共现次数。 不过,这一计算仍然存在很大的问题,在郭锐(2012b)的计算中,“12-13”之间的关联度仍高到59.54%,排名第五,比排名第六的“1-13”的31.48%高出不少;而在马腾(2015:202)中,“12-13”的兼有数被从郭锐(2015:169)中的“181次”一下下降到了“2次”,但却未说明原因。