论言语发音与感知的互动机制

作 者:

作者简介:
陈忠敏,复旦大学教授,博士生导师,研究方向:语音学(上海 200433)。

原文出处:
外国语

内容提要:

语言交际是一个说者发出语流串,经媒介传入听者听觉器官,再由听者大脑神经中枢重新解码的过程。语言交际涉及说和听双方,本文从听与说两方面来深究人类语言交际的机制及其特点,通过讨论发音器官与听音器官频率声能互补、低频敏感度与元音格局、音类扩散分布与感知区别增强、量子理论与语音感知、说者协同发音与听者感知补偿等五方面内容,提出说与听有相互配合、同时也有相互制约的关系,同时说明一旦这种关系失衡,就会误解,可能导致音变。这一研究成果也将对人工智能、类脑研究有所启发。


期刊代号:H1
分类名称:语言文字学
复印期号:2020 年 03 期

字号:

      语言交际涉及到说与听两方面。从说者的角度来看,说者首先要在言语认知的高级中枢——大脑运动皮层发出发音的运动命令、规划,然后主要运动皮层(primary motor cortex)再发出指令引起神经元(neuron)放电,相关神经元协调和牵动各种肌肉驱动发音体发声,共鸣体改变发出不同的音来。从传播的角度看,随着发音体与共鸣腔内的空气粒子压力发生变化,产生不同性质的声波,声波通过媒介传到听者的耳朵里。从听者的角度来看,声波传送到听者耳朵后,听音器官对外来的语音会有选择性地放大、缩小来提取声学信号再转换成神经脉冲放电,生理电信号传入大脑中枢来重新解码,从而完成一次语言交流过程。发音、语音传播、语音解码三个阶段形成语言链中三个不同的阶段。在语音学里对应于这三个阶段分别形成三个不同的语音学分支:发音语音学(articulatory phonetics)、声学语音学(acoustic phonetics)、听觉/感知语音学(auditory phonetics/speech perception)。

      语言的发音、传播、感知虽然根据语言链的前后关系分成三个不同阶段,但是它们是相互配合和制约的。本文从听与说两方面来深究人类语言交际的机制及其特点,提出说与听有相互配合、同时也相互制约的关系,一旦这种关系失衡,就会误解,再从听者发出此类音,就有可能产生音变。

      2.发音器官与听音器官频率声能互补

      从发音器官来研究言语的产生,可以用“声源+共鸣滤波器”理论(source+filter)来说明。此理论由著名语音学家Gunnar Fant在20世纪60年代初提出(Fant 1960)。肺部出来的气流是声能,所以肺部和声门以下的器官以及里面的气流是言语发声的动力部分。气流通过两片靠拢的声带会产生布鲁力效应(Bernoulli effect)使得声带相向运动而引起振动,从而产生准周期性的脉冲(impulses)声源,声带振动的频率就是基频(Fundamental Frequency),通常写作F0。另一种声源是白噪音声源(white noise),白噪音声源产生于共鸣腔内的某收紧点,收紧点变窄,急速的气流通过产生湍流般噪音,或者收紧点闭塞后突然爆破,产生爆破声源。噪音声源与声带发出的准周期性声源可以叠加,比如浊擦音;也可以分开,比如元音只有准周期声源,清辅音只有噪音声源。声源前的共鸣腔可以假设为一种特定形状的共鸣滤波器(vocal tract filter)。声源发出的声音经过特定的滤波器的修饰,再经过唇辐射放大就是我们人耳听到的语音。图2.01是元音产生的声源+共鸣示意图。

      

      图2.01中的上图声门气流(Glottal airflow)是声门处声带振动引起的气流声波(声门波)。声门波经过共鸣腔再从嘴唇出来(output from lips)就是我们听到的声波。下图的声源谱(source spectrum)是指声门波对应的瞬间频谱,瞬间频谱的纵轴代表振幅,单位是分贝(dB),横轴是频率,单位是赫兹(Hz)。从下图的瞬间频谱图可以看出,随着频率升高,振幅急剧下降,一般来说,正常发声态(modal voice),频率每下降一个倍频程,振幅就下降12dB。不同形状的共鸣腔具有自己特定的共鸣频率(resonances)。图2.01中所示三个共振峰频率(formant frequencies)是相当于均匀共鸣腔管子,类似于发元音时的数值,第一共振峰(F1)为500赫兹,第二共振峰为1500赫兹,第三共振峰是2500赫兹。声门频谱经过共鸣频率的修饰,就产生了我们能从分析仪看到的元音共振峰的输出频谱图(output spectrum)。频谱图里能量总的特点是低频能量高,越往高频,能量越低,这个特点是发音体的生理机制所决定的。

      从感知器官来看,语音感知的特性跟人类特有的听觉器官的特点有密切的关系。人耳听辨声音的频率范围虽然很广阔,覆盖16赫兹到22,000赫兹的频率范围,但是人耳频率分辨率并非线性的,对频率也是有选择性的。成人外耳道的长度大概是2.3cm(0.023m),根据一端闭一端开的管子的共振频率我们可以根据声速(每秒340米)与波长(一端开一端闭的管子是最长波长的四分之一)公式算出这一长度管子的最强的第一共振峰值:340/(4×0.023)=3696赫兹,再加上中耳带宽的扩大效应(带宽大概是500赫兹到5000赫兹)(Rosen & Howell 2011:267),形成低频有坡度,高频陡峭的敏感带宽区域,这种图形叫作往低延伸的带宽图(downward spread of bandwidth)。图2.02是外耳、中耳以及两者叠架声音敏感图(Rosen & Howell 2011:268)。可以看出人耳对2,000赫兹到5,000赫兹的声音反应最为敏感,到达或超过10,000赫兹的声音敏感度会急剧下降(Johnson 2012:86)。

相关文章: