[题解]本文为笔者在一次关于“人—机对话”与语言学关系的座谈会上,对目前“人—机对话”系统中言语处理方面所需汉语语言学知识的几个话题,从一个语音工作者的角度提出的一些意见。笔者对汉语教学原属外行,但其中所提出的语音特性、实验分析方法及有关理论部分,或可供汉语语音教学上的参考。现将原稿重新整理修订,各话题中有些例证或有彼此重复之处,但互有侧重,自成体系,就不加删改了。 一 “人—机对话”本身的启示 信息时代的具体工程之一是“人—机对话”,主要是计算机对语音信息的处理。它包括语音合成与语音识别两个目的相反的内容。语音合成是:让机器能“说出”语言,不但要能准确无误地“表达”语言信息,还要要求发出的语音质量(包括辨义的和表情的)跟人所说的话音质量没有大的差别。语音识别是让机器能“听懂”语言,来“执行”语言信息,或转换成文字,要求不会识别错误。常用的装置是:合成系统是把文字(目前多是用键盘打出)输入机器,变成语音,叫做“文—语转换”;识别系统是把语音通过话筒输入机器,转换成文字(或其它功能),叫做“语—文转换”。这些装置的运行,首先就是要进行语音信息的处理。最终希望达到的水平,拿通俗的话来说,就是:教机器“说”,要能说出像真人一样的口语,而别让人听到的是“机器音”或“黄腔走调”;教机器“听”,要能听懂所应用的方言(目前多为普通话),不限说话人,而不致有错。话又说回来,如果人们日常口语的音总是稳定的,大家都把“玻坡摸佛”说成同样的音值,把“阴阳上去”说成同样的声调,只要把这些信息作成固定程序装进机器,这不就省事了? 可是,事情没那么简单。人们口语的音是不但随语流、而且随环境、随人别而变换的;音质、音调、音长、音量无一不在变,而且会变得出了“格”;而机器(主要是计算机)只能根据人们分析语音取得的数据,以及制定的音变规则来处理。如果分析得不够严密,制定的规则不切实用,乃至机器的功能不够应付,识别和合成就达不到理想。目前国内外有成千上万的专业工作者在绞尽脑汁,进行无数次的实验,要对各特定语言攻下这些难关。几十年来的成就是不小的……。让我来个插曲:我还记得在五十年代后期,那时美国已经在研究“语音打字机”,我国的有些文理科研人员也曾合作设计一套“自动语音识别器”。文方提供语音数据,理方担任技术研制。终于搞出一件书柜似的玩意儿来。一个柜子装了许多电子管,面板上有十个灯泡,写上十个汉语的元音,向它“使足了劲”喊出一个“啊”或“伊”,对应那个元音的灯泡就亮了。当时在北京召开第一届全国声学会议时曾展出这套“机器”,那时在我国算是“领先”了。现在看来,只不过是一件能反应简单声音的玩具罢了。短短的三十多年过去了,我国的好些单位都已经能叫机器“读”文件和“听”人话了。成绩虽还不太理想,但应该说这还是不简单的。因为语音信息处理这个研究课题,越深入就发现难度越大。 不过,人类的科学现在已能上天入地,太空接轨;微机多媒,……已非过去所能想象;可就是对这小小的几句语音玩不转悠。还没听说世界上有哪个先进国家,敢于放心让坐在飞机上的飞行员,“完全”用口语来操纵座机而不用手控的。原因何在呢? 我们在二三十年来的语音实验中才逐渐深入了解,语音不同于任何有规律的事物。它的变量有些是有规律的,更多的是随机的。国际上有少数发达国家对其本国语言的人—机对话,已达到相当水平,并积累了不少的新方法和理论。但目前也还存在不少问题,如:识别不同语气的错误率还高,合成的语音还有“机器味”,对语句的自动分段还有难度等等。如把他们的成果用于汉语,计算技术方面可以引用,但语言规则方面就会遇到困难,这还得靠更深入的研究来解决。其主要原因,让我引用北大季羡林教授最近的一篇文章“探求正未有穷期”中有关汉语语法研究的几段话,或可说明问题之实质所在。他说: “当前我们(对汉语语言学的新路)的探求,已经触及汉文和西方印欧语系的语言文字的根本差异。但是我认为还很不够。语言文字是思想的外在表现形式,而思想的基础或出发点则是思维模式。东西方思维模式是根本不同的。西方的思维模式是分析、分析、分析、再分析,认为永远可以分析下去的。而东方的思维模式则是综合,其特色是有整体概念和普遍联系的概念。” “综合的东西往往具有一些模糊性,中国语言也不能例外。在过去,人们往往认为,模糊不是什么好东西。而到了今天,世界上一切先知先觉者已经发现,世界上很少有百分之百绝对清晰的东西,而模糊性倒是一些事物的本质。二十世纪西方新兴的学科中,有两门引人瞩目的学问,一门叫模糊学,一门叫混沌学,而这两种学问又偏偏出自自然科学家之手。前者出于绝对清晰、绝对准确的数学……据我看,模糊论和混沌论也是用分析方法得来的结果。” “时至今日,世界上科学发展的方向是:文理科界限越来越不分明,两者的关系是互相渗透,互相融合。模糊论和混沌论就是两个具体的例子。我们中国语言学家应当抓住这一点,继续进行探求。特别是对汉语的模糊性特色要多加注意,多加探求。” 上面所提的基本问题是:东西方的思维模式不同,因此,汉语的研究方法与西方语言的研究方法应该有所不同,西方的是分析,而汉语的是综合。中国语言具有模糊性,我们应该对汉语的模糊性特色多加研究。当然,季先生的论点是对汉语语言学、特别是语法的研究方向而发的。但我认为,把这个意见用在汉语语音上也完全适用。关于模糊论与语言学的关系,已有一些文献谈到。陈原先生在他的《社会语言学》中“语言的模糊性与模糊语言”一章,举了很多模糊语言构词的例,也都是关于语法的。不过他指出:“电子计算机要求的是精确的语言,而且是再精确不过的语言(按:这也就是分析、分析、再分析),计算机没有能力去接受、贮存和处理模糊信息。”(这是他十五年前写的书。当时的电脑还只有那点儿能耐。今日的计算机,已到了所谓的“第五代”,已能根据人所给予的程序来处理模糊语言了。)而语音的变量正是模糊论的重要组成部分。问题是只要我们能编出语音变量的模糊集合程序来给人机对话应用。在十几年前,瑞典的言语工程专家方特(G.Fant )就已经向世界语言学家呼吁:要有第五代的语言学家来配合第五代的计算机,才能够让机器说话像人说的那样自然。十多年了,这个愿望还未能完全实现。今日语音信息的处理能否过关,当然,研究主角该由言语工程学家来当;不过,也许一半的任务还得要由语言学者和语音学者们来承担了。