1.引言 汉语语音识别和语音合成语音数据库已经在国家863 计划的支持下,由几个单位合作,基本完成。中国社会科学院语言研究所在其中负责语料设计〔1〕和标音。〔2,3〕该语音数据库的规模和质量在科学、合理、简洁、有效等方面,均比过去有较大的进步。通过建立语音数据库的工作,我们认为在语音数据库设计的科学性方面还存在着问题有待探讨:在语料设计的过程中,篇章的切分、断句还不能全部实现自动化;在语音现象的归纳方面,我们使用的语音学规则基本局限在音段方面;连续语句的韵律现象,仅通过对句型的考虑,使其达到自然平衡。我们对于音段的研究相对来说较为成熟,而连续语句中的韵律结构等超音段规律以及它们与句法结构等因素的关系均未揭示清楚。 欧洲对连续语音的研究早在80年代以前就开始了,瑞典著名言语工程学家Fant对朗读连续语句的重音、节律、短语间的停顿以及边界的时间延长都做了定量的研究,〔4 〕近年又提出了停顿时长的量子效应,以及重音音节、非重音音节和音位音段的量子效应。〔5 〕法国语音学家Aario Rossi在句法结构和韵律结构方面做了深入的研究, 并因此获得1997年欧洲言语通讯与技术学会颁发的奖章,他定义了连续语句中句法结构的线性构建和句法成分的层级,提出了用语用—韵律模型、句法—韵律模型和节律模型来确定韵律结构。〔6〕在这一领域中, 汉语研究在连续变调方面给出了研究结果,〔7,8,9 〕但总体来说还十分薄弱。 2.连续语音数据库制作的基本过程 图1是语音数据库建立过程的框图。首先选择一个大的语料库, 863连续语音识别语料库设计时使用的是《人民日报》等报刊。 在这个大语料库的范围内,按照语言学、语音学原则挑选出满足一定覆盖量的句子集,作为语音的朗读文本。发音人按照文本朗读,就产生了语音数据。
图1 连续语音数据库的建立过程 语音数据库的制作看似简单,但整个建库过程十分繁琐、复杂,其中还涉及到语言的理解和产生两个方面的问题。要真正实现科学性,需要语言学、语音学、心理学、声学及言语技术等综合知识技术。 3.语料库朗读文本的设计 863连续语句文本的设计经历如下步骤。 3.1 断句 文本处理的第一步是断句,目的是为文本处理、朗读以及语音数据的处理等方面带来方便。863 语音识别数据库的连续语句的断句点是在如下标点符号处: “。”,“,”,“;”,“!”,“?”,“:” 为了让发音人不感到困难,原则上把句长限制在20个音节以内。 3.2 拼音转写 为了确定、统计连续语流中的语音现象,必须将文字转写成拼音,要使拼音转换准确,需要有一个很好的词库用于词的切分,并得到准确的拼音文本。 3.3 由拼音生成语音单元 我们将普通话语音的基本成分确定为音子,并设它们是连续语音中的最小音段。普通话的基本音子有37个: a1,a2,a3,b,c,ch,d,e1,e2,e3,er,f,g,h,i1,i2,i3, j,k,l,m,n,ng,o1,o2,p,q,r,s,sh,t,u,x,yv,z,zh,sil 通过基本音子可以方便地描述音节内和音节间的语音现象。有了一个如表1 形式的音节构成表就可以将一个连续话语转写成语音单元串,我们可以任意定义语音单元,如音子、双音子、三音子以及半音节等。 表1 音节构成表 音节由音子生成音节由声母、韵母生成音节 ……………… chu ch—u ch—u chuai ch—u—a2—il ch—uai chuan ch—u—a2—nch—uan chuangch—u—a3—ng ch—uang ……………… 尽管汉语普通话是由一个一个音节连接而成,但在连续语流中,音节的声学表现与孤立音节的情形十分不同,它受到左右音段的影响,偏离了本来位置。在声学层面上描写语流中的音变现象以及音段间的过渡仅用音子是不够的。在863语音连续识别数据库语料设计时, 我们考虑了如表2所示的几种语音单元的覆盖, 其中三音子和韵母—声母结构的数目是根据发音方法和发音部位的变化规律归并而得到的。连续语音中另一个重要的语音现象是韵律结构,一个话语包含着不同的韵律结构,它们与句法、语法结构有着一定的对应关系,但又不是完全一一对应。如表3所示。韵律结构的具体分类有所不同, 它们反应了连续语音的节奏以及更深层次的内涵。〔10〕为了使语料包括不同的韵律结构, 863语音识别和语音合成语料设计中参考清华大学中文系的汉语句型〔11〕考虑了18大类不同句型(由李智强提供)。 表2 863语音数据库的语音单位 语音单位 数目 不含声调区别的音节 401 音节间的双音子 415 音节间的三音子 3035 音节间的韵母—声音 781 表3 韵律结构及句法结构