人类语言信息传递速率的共性  

作 者:

作者简介:
孔超,刘娟,山东大学文学院语言科学实验中心(济南 250100)。

原文出处:
外语教学与研究

内容提要:

人类语言在形式上纷繁多样,但作为信息传递工具,不同语言都使用发音-听觉信道完成信息传递。本文对覆盖49.8亿人口的61种语言的大规模语音、文本语料库数据进行了计算研究,以探讨不同语言信息传递的速率和策略。计算结果发现人类语言信息传递的速率和策略具有很强的共性:61种不同语言中,语言传递信息的速率都分布在14比特每秒左右,同时在词这一级单位上,不同语言有非常一致的信息密度(约6.8比特每词)和平均语速(约2词每秒),这意味着在词这一级单位上不同语言使用了完全一致的编码策略和信息速率。而不同语言在信息编码问题上的多样性主要体现在音节这一层级上。


期刊代号:H1
分类名称:语言文字学
复印期号:2022 年 09 期

字号:

      1.研究背景

      从表层来看,不同语言呈现出结构的复杂性和极大的差异性,但对人类语言可能存在的共性或普遍规律的探索却从未停止(Hockett 1963)。前人研究的结论往往还是定性的或笼统的描写,很少发现定量的普遍成立的规律。由于人类语言的一个功能是交换信息,因此我们相信在这一层面上,或许有某些普适的规律统辖着看似纷繁复杂的人类语言。

      对语言信息的讨论可以追溯到上世纪初的布拉格学派,但真正对语言信息进行计算的研究开始于Shannon(1948)提出信息论(information theory)之后。研究者最先是将信息算法运用于音位对立的考察,也即对音位功能负担(functional load,FL)进行计算,一方面提出了不同的FL计算方法,另一方面在多种语言中都发现了FL与音变的相关性。近年来,有不少研究注意到了语速与信息的关系(Aylett & Turk 2004;Keller 2004;Frank & Jaeger 2008;Jaeger 2010),并将这一关系描述为“均匀信息密度假说”(Uniform Information Density Hypothesis,UID假说),UID假说认为人在说话时的信息密度是均匀的,换言之,单位时间内传输的信息量是相当的,并且UID假说推测这一信息传输效率大致接近人类(口语)语言的信道容量(channel capacity),以求最大化信息传输效率。

      Hockett(1963)曾提出语言的13条设计特征(design feature),其中首要一条就是不同语言都使用发音-听觉信道完成信息交际。估算这一信道的信道容量对认识语言的共性可能是十分有价值的。在这方面的尝试最早见于Reed & Durlach(1998)对英语信息传递速率(information transfer rate,简称为信息速率/IR)的研究,但受到当时计算条件的限制,基于大规模语料库的信息熵计算难以实现,因此这一结论并不十分可靠。由于UID假说在多种语言的研究中得到了验证,有学者开始尝试运用跨语言的手段对人类语言的信道容量,也即语言的信息速率本身进行估算。Pellegrino et al.(2011)、Oh(2015)分别使用7种、18种语言对语言间的相对信息速率进行了计算,由于方法的局限,这一研究只得出了不同语言信息速率的相对大小差异,没有绝对大小的结果。Coupe et al.(2019)首次运用跨语言的方法对17种语言信息速率的绝对大小进行了计算,得出的结果是人类语言的信道容量大约在39比特①每秒左右。这一研究使我们对人类语言的信息交流功能有了更准确和清晰的突破性认识。

      我们同时注意到以往对于语言信息速率的计算使用的是音节或更低层级(如音素)的单位,但还没有研究从语素或词等编码了语义信息的这一级单位入手来考察语言的信息速率(即每秒传输多少比特的信息)和信息编码策略(即每个词或音节编码多少比特的信息)。众所周知,不同语言都是以词为单位对外部事物进行指称,故从编码语义信息的角度而言,词才是人类语言编码信息最主要的语言单位。因此考察词这一级单位在人类语言信息编码上的特点和机制十分必要。使用更低层级的音节单位进行计算,完全忽略了语言中的语义、语法信息,可能直接导致以往研究所测得的信息速率过高,与语言事实有较大差距。而使用词这一级单位进行计算可以避免这一问题,使计算结果更加接近语言事实。另外,以往研究大多仅使用了几种或十几种语言进行考察,对于人类语言的多样性而言,这样数量的语言样本仍然嫌少,所得结论在普适性上让人尚存疑虑。

      基于上述原因,我们选取了覆盖49.8亿母语者的共61种人类语言作为研究对象,使用改进的算法对人类语言信息速率进行估算,同时特别考察词这一级语言单位在信息编码过程中的特殊表现。

      2.材料与方法

      2.1 数据材料

      我们使用了61种语言或方言的口语语音材料,并辅之以对应的56种文本语料库②对语言信息传递速率的普遍规律进行考察。以上述语言为第一语言的人口约有49.8亿人。下面分别介绍口语语料和文本语料库。

      口语语音材料包含61种语言或方言的语义一致的录音材料。61种语言分别来自印欧语系、汉藏语系、尼日尔-刚果语系、南岛语系、达罗毗荼语系、阿尔泰语系、乌拉尔语系、亚非语系等8个不同的语系,此外还包含一些孤立语言(巴斯克语等)以及一种人造语言(世界语,Esperanto)和一种克里奥尔语(帕皮阿门托语,Papiamento)。录音材料均来自非盈利项目伊索语言数据库(Aesop Language Bank),文本内容均为转译为各语言或方言的寓言故事《北风与太阳》,大部分语言或方言均包含1名母语者发音人,但拉丁语和世界语没有母语者,故由熟练的第二语言者进行发音,对发音人的社会语言学因素不作限制,发音人以讲述故事的正常语速对发音材料进行朗读录音。

      文本语料库包含与上述61种语言或方言相匹配的56个文本语料库,语料库均来自莱比锡大学提供的莱比锡语料库集(Leipzig Corpora Collection)(Goldhahn et al.2012),所有语料库均使用相同的规则从新闻或网络中爬取语料。在同一种语言的语料库选取上,优先选用数据量最大的,其中42个语料库均为一百万句的较大规模语料库;数据量相同的则优先选用最新的语料,所使用的语料库均为2011年之后获取的版本。

相关文章: