高山族是我国境内使用南岛语的主要人群①,分布在台湾岛、兰屿等地,据调查共有579,446人(2020年11月),其中台湾地区575,967人②;其他地区3,479人③。作为中央政府对台湾地区的少数民族的统一族称,“高山族”一词自20世纪50年代起一直沿用至今。历史上高山族曾有过“夷”“番”“山胞”等不同称呼。日本殖民统治台湾时期,高山族还被称为“蕃”“高砂族”。 高山族语言诸语,亦被称为“台湾南岛语或台湾南岛语族”,主要包括泰雅语(Atayal)、赛德克语(Seediq)、邹语(Tsou)、卡那卡那富语(Kanakanavu)、沙阿鲁阿语(Saaroa)或拉阿鲁哇语(Hla' alua)、布农语(Bunun)、鲁凯语(Rukai)、排湾语(Paiwan)、阿美语(Amis)、卑南语(Puyuma)、雅美语(Yami)或达悟语(Tao)、噶玛兰语(Kuvalan)、赛夏语(Saisiyat)、巴则海语或巴宰语(Pazih)、邵语(Thao),以及业已消失的凯达格兰语(Ketagalan)、道卡斯语(Taokas)、巴布拉语(Papora)、巴布扎语(Babuza)、洪雅语(Hoanya)、西拉雅语(Siraya)、猴猴语(Qauqaut)、龟崙语(Kulon)等20来种。④为行文方便,本文将包括兰屿雅美语在内的高山族诸语言概称为“台湾南岛语”。 一、台湾南岛语的内部分类研究概况 关于台湾南岛语的内部分类研究一直是学术界讨论的课题。自20世纪50年代起,经过几代人系统而又全面的田野调查,台湾南岛语面貌已基本清晰明了。由于台湾南岛语及其下位分支语言的多样性、复杂性,加上学者囿于自身所采用的分类理论、方法和材料的不同,导致在有关台湾南岛语的内部分类研究上仍然争议不断,如下页表1。
除基于语音特征的分类标准外,Starosta和Ross等则是基于构词特征,如Starosta主张原始台湾南岛语在谱系树上基本和原始南岛语相等,所有台湾地区以外的南岛语在整个南岛语谱系上,都属于较低的层次。(14)不过Ross则认为迄今为止重建的原始南岛语实际上应该位于南岛语谱系树中较低层级的一个位置,反映它的语言属于一个不包括卑南语、邹语和鲁凯语的分群,即“核心南岛语”。(15)核心南岛语有一个复杂的共同创新,即原始南岛语作为名物化的一些标记,在这些语言中演变成动词的标记。(16) 此外,也有基于词汇特征的分类,Sagart基于数词5到10所蕴含的词汇创新层级分类,即7“*pitu”>5“*lima”>6“*enem”>8“*walu”>9“*Siwa”>10“*puluq”。(17) 除定性分类研究外,也有学者采用词汇统计的定量方法。如:戴恩(18)以斯瓦迪士200词,对14种台湾南岛语作词汇学统计;Ferrell(19)大体沿用戴恩的三分法,不同的是,他将戴恩的第三语群称为“排湾语群”,并以原始南岛语的舌尖塞音*t与舌尖塞擦音*C[ts]在排湾语群中是否区别为依据,把排湾语群继续下分为2支,保留*t与*C分别的语言为“排湾语群第一分支”;发生合并的,即*C>t的语言为“排湾语群第二分支”。此后,在中国大陆出版的两部涉及台湾南岛语相关介绍的《台湾高山族语言》(20)和《中国的语言》(21),二者的分类基本直接沿用前述戴恩的三分法。 Gray和Jordan以及Gray、Drummond、Greenhill等人在国际权威期刊Nature、Science上也陆续发表了几篇有关南岛语言谱系树模型的研究,文中有涉及台湾南岛语在谱系树的位阶。他们尝试将生物学中研究人群分类及其时间深度而发明的计算程序及其系统发育树的构建和生成方法应用于南岛语的研究。他们的研究结果显示:新产生的南岛语言谱系树拓扑结构与“快车模型(Express-train)”高度兼容,快车模型可以转换为有序的地理特征,并映射到语言树中,台湾地区的阿美语和排湾语处于谱系树的根部(Root)。(22)谱系树模型还将南岛语的起源定位在距今大约5230年前的我国台湾地区,并显示其与太平洋南岛移民起源假说“扩张-停顿(Pulse-Pause)”的情形相一致,表明南岛语的多样化与地理的扩张密切相关。(23) 上述分类结果中,除位于兰屿上的雅美语争议不大之外,诸家分类的争议点主要集中在台湾南岛语下位分支数量的多寡,其实际具体表现在对“排湾语群”认定的差异上。总的来说,前人及时贤在探讨台湾南岛语诸语的内部分类研究方面取得了诸多成果,然而囿于不同的分类理论、方法以及材料,是其分类研究依旧存在诸多分歧与争议的主要原因。具体表现在: 首先,在分类标准上,传统的分类标准语音特征的择对完全有依赖于研究者主观的个人经验与学术积累,即使针对同一研究主体,不同学者选取不同的语音特征,其分类结果往往也有所差异,甚至截然相反。何大安以原始南岛语PAN*n和
的合并为分类特征,将布农语划入由阿美语、噶玛兰语、西拉雅语等组成的语支中,而李壬癸则以PAN*j和*n的合并为分类特征,将阿美语、噶玛兰语、西拉雅语归于一群,不包括布农语。(24)