中国社会科学院语言所林茂灿主持的国家社科基金“九五”重点项目《基于语料库的普通话自然连续语音研究》的最终成果是《基于语料库的普通话自然连续语音研究》。 该课题的主旨是创建普通话自然连续语句语料库,探究普通话自然连续语音之规律。其主要包含两个方面的工作:一是创建普通话自然连续语句语料库,其中包括朗读话语语料库、流畅话语语料库和即兴话语语料库;二是开展普通话连续语音现象研究,包括音段音变,连续语句中声调变化,连续语句的基本节奏单元及其时长结构,以及语句中轻声的儿化等。其间完成了相关的7个子课题,即“语料库中语料的韵律标注和音段标注”、“语句韵律结构和语句中声调变化”、“语句的基本节奏单元及其时长机构”、“朗读语句中的轻声”、“话语音段协同发音研究及儿话韵标记”、“语料库中语料的句法标注及句法结构与韵律结构的关系”、“普通话韵律标注和韵律分词系统的前期研究”。 《基于语料库的普通话自然连续语音研究》表现出三个鲜明特点: 一是着眼于创新性,追求新颖的课题立意,力求达到国际前沿。建立语音语料库是20世纪60年代在国际上兴起的,短短十几年就已有长足的发展,语料库已成为研究自然连续话语中语音现象所必需具备的基础,我国台湾省也已经开始进行语料库的建立工作。针对普通话语音的研究多年来停留在孤立音节和孤立词语的研究上,所收集的语料多为由发音人阅读预先设计好的材料,该成果创造性地将研究重点转移到对自然连续话语的音段变化和韵律现象上来,在研究对象和研究材料方面取得重大突破。该成果所建立的语料库对推动今后语音理论研究和言语工程十分重要,对汉语语音的其它方面研究,对我国众多的少数民族语言的语音研究,将有示范、推动和借鉴作用。 二是着眼于理论与实践相结合,追求研究成果在言语工程中的有效应用。连续话语中的语音学问题研究是面向言语工程应用的基础研究,具体地说,就是面向语音识别和语音合成技术。言语(speech)和语言(language)工程是当今信息处理、信息交流的重点工程。现在的关键问题是,要把语音这种人与人之间交流的最自然的方式,变成人与机器之间的交流方式。人们希望在不久的将来能够直接用语音和网络、各种家用设备、个人电脑等进行交流,用语音通过机器和网络进行人与人之间的交互,让机器听懂自然话语,让机器说出抑扬顿挫的声音。该课题就是解决其中有关语音方面的问题。目前,已建立起的三个语料库中的朗读话语语料库已成为国家863语音识别使用标准库,不但在国内处于领先地位,而且在国际上也还没有标注如此详尽的大规模汉语语料库。该成果除在国际学术交流中引起国内外同行的广泛关注外,同时也为国内语言合成领域的应用提供了有价值的参照。 三是着眼于研究方法的改革,追求课题研究的可持续性。课题组在研究方法上也有许多新的特色,例如,他们提出的建立语料库的几个原则,结合汉语语音特点所建立的SAMPA-C符号系统和TOBI-C标注系统,特别是他们提出的对语句基频和时长的规整方法,都是语音研究方法论方面的重大突破,使人们能够把握并驾驭自然语句中基频与时长种种复杂现象和变化,从而进一步运用声学数据来研究自然连续语句的韵律结构。这些方面所取得的突破为今后进一步对自然连续语言的语音研究,包括难度极大的语调研究和篇章方面的研究打下坚实的基础。可以说,从研究音节内部语音现象转变为研究自然连续话语的语音现象是语音研究的质的飞跃。