用计算机模拟研究语言演化

作者简介:
龚涛(1977-),男,辽宁阜新人,博士,香港大学语言学系任研究学者。研究兴趣包括:模拟仿真、词汇—句法共同演化、社会—文化因素对语言作用等。著有专著Computational Simulation in Evolutionary Linguistics:A Study on Language Emergence,并在国内外学术杂志(PNAS、PLoS ONE、Language Sciences、Language and Linguistics、Artificial Life等)和会议(Evolang5—9、IACL'19等)发表多篇论文;帅兰(1979—),女,江苏南京人,博士,现任职于美国约翰·霍普金斯大学电机与计算工程学系,从事博士后工作。研究兴趣包括:模拟仿真、声调、二语习得、阅读障碍、脑成像技术及大脑偏侧化等。已在国内外学术杂志(PLoS ONE等)和会议(ACOUSTICS'12、TAL'12、ICPhS'11、IACL'19、Evolang9等)发表多篇论文;王士元(1933-),男,上海人,1960年于美国密西根大学获博士学位,师从语音学家Gorden Petemon,1965至1995年于加州大学伯克利分校担任正教授,1973年首次回国于北京大学讲学,并创办JCL(《中国语言学报》)。1992年获选国际语言学会首届会长,并当选台湾“中央研究院”院士。现为香港中文大学伟伦研究教授,同时任教于语言学及现代语言学系,多年来致力于推动跨学科视野的语言研究,包括人类学、遗传学、脑神经科学及计算机科学。

原文出处:
语言科学

内容提要:

计算机模拟方法最近正被大量应用于演化语言学的研究中。文章讨论此方法对语言演化研究的必要性,归纳对已有模型的分类准则,介绍开发计算机模型研究语言学问题的主要步骤和常用的模拟手段,总结此方法的优势与局限,并指出未来演化语言学研究将会更多的建立在这种跨学科的研究之上。


期刊代号:H1
分类名称:语言文字学
复印期号:2013 年 06 期

字号:

      1 当前演化语言学的研究手段及其局限

      演化语言学(Evolutionary Linguistics)是探讨语言涌现、变化和消亡的语言学子学科(Wang 1982;Ke & Holland 2006;Hauser、Barner & O'Donnell 2007)。对语言演化的思考可追溯到达尔文1859年出版的《物种起源》,但由于受到当时研究手段的制约,1866年巴黎语言学会颁布禁令不再讨论和语言演化相关的课题。直到上世纪50年代,随着语料的丰富,对人与其他动物的交流系统和认知行为的深入认识,以及相关学术领域的技术突破(Huang & Lenders,8 2004),演化语言学开始复兴。

      当前的演化语言学研究主要采用3种手段:分别基于理论、基于语料和基于语言使用者。理论研究并不十分重视实证。例如,理论句法学家多通过主观内省分析句子合理性及使用者对其的处理,并由此提出抽象的结构性语法系统来解释语言形式和处理过程。普遍语法及相关理论(如Chomsky 1965,1995)就是典型例子。人类语言系统和处理机制的复杂更让很多理论学家断言语言能力不是自然选择的结果,而是由人类基因中固化的机制决定的(Jackendoff & Pinker 2002; Hauser、Chomsky & Fitch 2002; Chomsky 2006)。尽管这些抽象的理论和结构能在一定程度上归纳不同语言形式上的特点,我们无法知道使用者对句子的分析是否遵循这些理论,这些抽象结构是否在使用者的脑中存在。实证结果似乎与这些貌似完美的理论背道而驰(Newmeyer 2003),认为语言“横空出世”的论断更是无法验证(Ramachandran 2004)。此外,语言学家的个人内省并不能代表整个使用者,其主观创造的句子也不一定能代表日常交流用语。例如,Ross(1979)构造了一些含歧义或语法错误的句子,并让句法学家们根据接受程度将这些句子分类,结果不同学家对同一句子的分类竟然大相径庭。

      与理论研究不同,历史语言学、社会语言学和类型学家强调基于真实语料来研究语言演化相关课题,如语言接触、历史亲缘关系及形式多样性等。例如,Greenberg(1963)通过比较30余种语言的词序归纳出一些词序的主要形式及其在不同语言中的分布规律。这些规律在后续的、基于更多语料的研究中已得到充分证实(Tomlin 1986; Dryer 1997)。随着计算生物学和信息学方法的引入,这类基于数据统计的研究已取得了很多突破(Levinson & Gray 2012)。但是,这类研究很大程度上受限于语料,特别是已灭绝语言的语料,过分关注语料也使这类研究忽视了语言使用者和其他因素对语言发展变化的影响。例如,Dunn et al.(2011)指出,功能性语法结构(如词序)主要受文化传递(Cultural Transmission)①影响,而非普遍认知限制。随着全面分析不同语言,越来越多的语言学家认为语言最显著的特征在于其形式多样性,而非普遍性,这种多样性主要归因于文化传递和交流中各种因素的影响(Evans & Levinson 2009)。

      随着脑成像技术的发展,基于语言使用者表现的心理语言学研究开始关注语言使用者习得和处理语言的神经机制。这类实证研究验证、驳斥和改进了一些已有的语言学理论。例如,Harris、Wexler & Holcomb(2000)用脑电仪记录了人类被试理解两类句子的脑电波。第一类句子含有单个反身代词,并与主语在数上一致或不一致,如例(1);第二类含有复合的反身代词,也与主语在数上一致或不一致,如例(2):

      

      此研究发现,被试在处理第一类句子时,反身代词的不一致会激发P600脑电波成分(当看到不一致的反身代词约600毫秒后,被试脑电波相比看到一致的反身代词呈现正向偏离),反映被试脑中的句法处理过程;被试在处理第二类句子时,复合反身代词的不一致会激发P300脑电波成分,反映被试脑中与语用有关的处理过程。此结果明晰了理论语言学关于反身代词与先行词的匹配是句法处理还是其他处理的争论(Reinhart & Reuland 1993)。尽管如此,这类研究仍面临一些难点,譬如如何设计实验关注特定语言结构而屏蔽其他结构,以及如何准确定位因处理特定结构而激活的脑区或脑电波成分。同时,这类研究通常记录被试在理解时的反应,多基于现代语言和小规模当代人类被试,对全面研究语言交流(包括产生和理解言语两个部分)及古人类语言处理机制的贡献有限,也很难体现文化传递等因素对语言演化的作用。

      考虑到这些研究手段的局限,演化语言学还需要其他学科和手段的支持(王士元2012)。近年来,很多学科,如动物行为学(Hurford 2007),遗传学(Fisher et al.1998),以及考古学和古人类学(Schoenemann2006)正加入演化语言学研究的行列(Gong et al.2010)。在此背景下,计算机模拟也被逐步应用到演化语言学中。

      计算机模拟可追溯到上世纪60年代“计算机之父”Von Neumann提出的自复制模型。此模型证明,通过设定规则,非生命体(如机器)也可自我复制(von Neumann 1966)。上世纪80年代,爱丁堡大学Hurford教授首次将计算机模型引入演化语言学研究,验证了词汇系统可通过索绪尔学习机制和反复交流逐步产生(Hurford 1989)。模拟方法可有效克服已有手段的难点与局限。例如,通过模拟和控制语言使用者、交流活动和社会—文化等因素,计算机模拟可探讨群体层面的语言演化并研究文化传递等因素对语言演化的影响;通过模拟特定语言结构和学习机制并剔除其他结构和机制,此方法可克服心理语言学实验的难点,有效验证特定机制是否可帮助使用者习得特定语言结构;通过引入情境和交流限制,此方法还可模拟各种习得和交流的环境与模式,用以探讨对语言习得和演化起决定作用的因素。随着越来越多计算机模拟研究的出现,此方法正逐步为语言学界所接受(Briscoe 2002; Cangelosi & Parisi 2002; Christiansen & Kirby2003b; Tallerman 2005; Bickerton & Szathmáry 2009; Gong 2009; Tallerman & Gibson 2012)。

相关文章: