一 引言 音段和韵律是构成语音的两个共时系统,它们在语音产生过程中相互作用,最终结合为一个整体。在一个语音系统中,音段特征通常是针对元音系统和辅音系统而言;韵律特征,从广义上说,是指声调、语调、轻重音等超音段现象。近年来,对韵律特征的研究日益受到语言学界和言语工程学界的重视。过去的语音研究以分析音段的发音、声学和感知特征为主,在韵律方面多是对现象的描写。造成这种不对称性的原因至少可以归结为两点:一方面,同音段相比,韵律特征(尤其是语调)更加富于变化,在实验研究中难于加以控制;另一方面,语音学把孤立的词或词组作为研究对象,理解韵律特征的需要并不十分紧迫。如今,语音研究已经进入连续语音阶段,韵律特征在自然语言理解中的作用就显得尤为突出,一系列跟韵律有关的课题被提出来,如自然语句的语调结构和韵律结构,语流中音节的声调变化,时长结构和轻重模式,声调和语调的关系等等。同时,在言语工程领域,语音合成和语音识别技术的发展始终把提高合成语音的自然度和识别语音的准确性作为追求的目标,而要生成自然度和可懂度高的语音样品,或是识别比较自然的语音样品,对韵律特征的控制是关键。韵律不仅具有辨义功能,而且是影响语音表现力的主要因素,声音的轻重缓急、抑扬顿挫、不同语气和口气的传达、个人语音特征的辨别,都要依靠韵律的作用。 研究韵律特征,准确的描写是基础。自然语言中韵律的变化手段非常丰富,说话人对相同的一句话可以自由地作出不同的韵律选择,而这种选择在很大程度上难于从文字预测。从言语工程的角度看,定量模型需要建立在带有韵律标记符号的大规模语料库的基础上,这样得到的模型更加精密,而且具有统计意义,而语料库只有加上标记符号才便于提取相应的韵律现象进行分析。 因此, 需要设计一套类似于国际音标(IPA)的标记符号,记录语句中最基本的韵律现象。Silverman等人设计的基于美国英语的ToBI(Tone and Break Indices)是当前国际上最为流行的韵律标音系统。[1]目前已有数种语言根据ToBI 的原则设计出的标音系统问世,如德语,瑞典语,日语(J-ToBI)。 这些系统的共同点是都有明确的言语工程取向性,既为语音研究服务,也为合成和识别服务。韵律标音首先要求对自然语言的韵律特征有充分的了解,否则,标音系统就成了无源之水、无本之木。所以,深入细致的韵律研究是韵律标音的前提和基础,也是言语工程发展的助推器。 二 韵律研究 语调是近几年国际语音学界探讨的热门话题。研究语调面临的首要问题是对什么是语调作出回答。Beckman最近提出, 语调是说话人期望听话人在理解一句话时使用的,或者无论是否受到说话人的有意控制,听话人确实使用的,可以感知到的音高模式的所有方面。[2] 这个定义包括了语调的产生和感知两方面,其核心是音高。国内也有学者主张语调的范围应该以音高为主。[3]当然, 并不是所有的音高都属于语调范畴,汉语既有声调又有语调,都表现为音高的变化。对于音高的哪些方面属于语调,哪些不属于语调,存在不同意见。Gronnum认为, 语调包括有语言学意义的、超音段的、非词汇的基频变化,或者是基频的感知相关物,音高变化的所有方面。[4] 语调结构是线性(linear)的还是叠加(superpositional )的?这是一个颇有争议的问题。这里说的结构是指声音的结构,它既可以是音系学层次的音系结构,也可以是语音学层次的语音结构,前者是语音的底层表达式,后者是表层表达式。通常把基频曲线作为语调的语音表达式。[5]线性说和叠加说的最大分歧在于, 线性说认为基频是语调唯一的表达式,语调无非是基频数据的线性排列;而叠加说认为基频只是语调的一种表达式,语调应该具有层级结构,以便处理音域改变和重音位置移动等影响语调的重要因素。 不论是线性说还是叠加说,都要确定语调的基本单位,也就是说,一个语调短语的组成要素。Pierrehumbert 在她的博士论文《英语语调的音系学和语音学》中提出,[6] 一个语调短语由音高重音(pitch a-ccent)、短语重音(phrase accent)和边界音调(boundary tone)构成;语调短语之间的界限是边界音调。音高重音对应于语调短语中的带有核心重音的单词,可以归纳为六种基本类型:H[*],L[*],L[*]+H,H+L[*],L+H[*],H[*]+L,其中带* 的音高特征和词重音对应。短语重音控制核心重音和边界音调之间的音高过渡,有H-和L-两种。边界音调用H%和L%表示。Pierrehumbert 用这种分析方法成功地解释了英语的语调模式,例如,一个语调短语尽管可以由数目不同的音节组成,但典型的陈述语调模式为H[*]L-L%,典型的疑问语调模式为L[* ]H-H%。不同的语调模式还可以表达不同的语用蕴涵。对Only crazy people do intonation (只有发疯的人才研究语调)这句话两种不同的回答,差别仅在于语调模式的不同。[7]