一 前言 近半个世纪以来,计算机科学的突飞猛进,促进了自然语言处理技术诸如语音合成、语音识别、自然语言理解以及机器翻译等领域的长足进步。这就使得人类言语“智慧的机械化”或者“机械的智慧化”(赵元任语,1980)的理想变得越来越现实。但是,由于人类对于自然言语机制的现有了解和认识还远远不能为真正的“机械智能化”提供必要的和充足的语言学知识和规则,使得自然语言处理部门面临知识壁垒的危机(Fant,1989),难以取得突破性的进展。例如,怎样才能成功地建立反映语音环境音变的模型,就是当前国际国内语音学界及言语工程界共同关心的一个热门课题。因为自然言语是个随机过程,其中各个单元的语音都是随不同的音境而变化的。然而,大多数现有的描写语音变化规律的语音学知识,或者因为颗粒太大,不够精细,或者因为不能作有效的、定量的计算,而不足以支持自然语音处理方面建模的需要。所以,长期以来,人们一直致力于寻找更加精细的、能够捕获语音瞬间变化的描写方法和处理单元。双音子和三音子的发现不能不说是在这方面的一种突破。在国外,它们已经在语音合成和识别中得到比较广泛的应用(Lefevre,1986;Lee,1990;Bhaskararao,et at.,1991);在国内,人们虽然刚开始接触这个领域(祖漪清,1995;曹剑芬,1996),但局部的尝试应用已初见成效。 双音子或三音子的具体结构是因语言而异的,而且隐含在每个自然语言的汪洋大海之中,人们不可能以整个自然语言作为语料来研究这些音子结构,也不可能依靠机器盲目地从任何随机采取的局部语料中,收集到一个语言里所有可能出现的双音子或三音子结构。一个比较经济而又可靠的办法,就是首先利用已知的、颗粒较粗的语音学知识,为这个语言里理论上可能存在的双、三音子结构设计一套模式性的语音样本。这样,计算机就可以通过对这些样本的自学习,获得那些未知的、更加精细的语音变化规律,掌握代表那些变化特性的双、三音子基本声学模式;或者以此为目标,从自然语料中搜索语音样本,建立可供各种系统训练或评测用的更加实用的语料库。本语料集就是为了满足汉语语音研究和语音处理的需要,为普通话双音子和三音子结构系统设计的模式性语音样本集。[1] 二 普通话双音子和三音子结构代表语料集 1.语音样本搜集的原则 一般说来,最大覆盖面和最小冗余度是语料库搜集语料的一个基本原则。本语料集的语料搜集也不例外,主要体现在以下几个方面。 (1)相对穷尽的原则:根据本语料集的设计目的,所谓达到最大覆盖面,就是要保证所收的语音样本能够全面覆盖普通话里所有的双音子和三音子结构模式,从而达到相对穷尽地反映连续话语里可能出现的语音环境变化现象的目的。尽管从现有关于普通话音联研究的结果来看,有些语音单元之间的音联关系比较密切,而有些则不太密切,例如,在前音节以鼻音结尾跟后音节以塞音或塞擦音开头的情况下,两个音节边界上的语音变化就不太明显,这在语音处理时或许可以忽略不计;此外,在一些音韵结构相似的情况下,相应的音子结构也相似。例如,同一个元音跟相同发音部位的一组辅音相邻往往具有相似的声学过渡,或许可以共享一个音子,共用同样的代表语料。然而,作为样本集,我们仍然为所有这类组合设置了代表语料,以保证全面反映各种不同组合环境中语音变化的模式。所以,从这个意义上说,这个样本集实际上是一个关于普通话连续语音搭配的、颗料较粗的知识库。有关方面可以从中获得这些搭配的基本模式,也可以据此搜索更为理想的自然语料,分析归纳出有关连续语音变化的、更加精细的知识和规则。 (2)语音上简洁的原则:所谓最小冗余度,就是所收的语料要尽可能简洁,避免不必要的重复。在连续话语里,双音子或三音子既存在于音节内部,也存在于音节之间;既可能出现在词或词组内的相邻音节之间,也可能出现在词或词组间的相邻音节之间。由于不同语音层次上语音之间的结合关系松紧程度不同,因而相应的双、三音子所体现的语音变化程度也有所不同。但是,从初步的观察分析可以看出,不管这些音变现象出现在哪个语音层次上,变化的大方向还是一致的,所不同的主要是程度上的差异,可以留待进一步研究。作为模式性语音样本,我们统一采用两音节结构作为代表,实行音节间跟词间的语料共享。同时,考虑到音节内所有的双、三音子都可以通过那些两音节结构中的音节来体现,这就不必另设语音样本;而音节间的双音子实际上都已经包含在相应的音节间三音子之内,可以共享语音样本。所以,这个语料集实际上只需要为所有音节间的三音子收编语音样本就行了。此外,在选用语音样本时,除了注意包含所有可能的音节结构和音节间的语音搭配外,还注意了各种音节在位置分布上的平衡,以便同时为停顿前、后的音子提供语音样本。并且,还尽可能地照顾不同类型的声调搭配。因此,这个语料集还可用来研究基频过渡、时长分布以及连读变调等超音段现象。 (3)选、编结合的原则:在搜集语音样本时,尽可能选用常用的两字词或词组。但是,有一部分结构是比较生僻的,甚至是生编的无意义的组合。因为尽管有些音子并不出现在成词的音节之间,但却有可能出现在语流中的词与词之间。譬如说,一般说来,“嘎九”或“讷迂”是不大可能有的无意义组合,但是,在诸如“张嘎九岁才上学”和“这个人木讷迂腐”之类的语句中,就有可能出现因这些音节比邻而生成的双音子或三音子。所以,我们就不得不生造诸如此类的两字组来模拟产生这类语音变化现象的语音环境。