一 引言 每一种自然语言都有同音词。从根本上说,同音词反映了语音的有限性和词语的无限性之间的矛盾。同音词在汉语中既有修辞作用的积极一面,也有影响口语交际效果的消极一面。积极方面包括谐音双关的应用等,如“年年有鱼(余)”“食(十)全食(十)美”。消极方面则表现为同音词所产生的混淆和歧义等,如“心酸”与“辛酸”、“姓张,是弓长张,不是立早章”等。在中文信息处理领域,同音词的大量存在也影响了语音识别和以拼音作为汉字输入方法的效率。将中文录入计算机是编辑和打印中文文本、进行网上交流的第一步,是中文信息处理的关键问题。当前主流的输入法包括拼音输入法和字形编码两种方案。拼音输入法由于更符合人们的思维习惯,而且无需学习,所以占据了输入法的主流地位。然而汉语中大量的同音词却影响了拼音输入法的效率,同音词的辨识成为提高拼音输入法效率的关键问题之一。 自20世纪80年代以来,对于汉语词汇的专题研究日渐增多,对于同音词问题,也有一些理论上的讨论和静态统计结果。尹文刚对《新华词典》收录的汉语同音字进行了统计,提出“同音率”和“同音度”两个概念作为度量同音字特性的量化指标[1]。刘延新、许皓光编著的《汉语双音节同音词词典》收录了两千多条双音节同音词,给出了每个词条的释义和例证[2]。最近,代建桃(2008)在分析《现代汉语词典》第5版的基础上,从词性、词形、词义等角度对汉语同音词做了细致的分类,并对同音词的形成和同音词对交际的影响进行了探讨[3]。 然而上述文献主要是从语言学角度对汉语同音词问题所作的分析,从信息处理的视角对汉语同音词进行分析的文章并不多见。冯志伟、张普等[4,5]所著的中文信息处理的专著中曾提到汉语的词频统计、音节总数等数据,然而鲜有词形、词次和拼音综合统计的介绍。对真实文本中汉语同音词的动态使用状况进行统计,必须要借助经过词语切分和读音标注的语料库,这是相关文献较少的原因。本文将从信息处理的角度出发,分析汉语词典和大规模语料库中同音词的分布,以期服务于同音词的辨识,提高拼音输入法的效率。 二 术语定义 为了描述汉语同音词的分布情况,定义以下相关术语: 1.同音词。具有相同读音的一组词形被称为同音词。一个同音词可能有不只一个义项,这些义项之间也可能没有直接关系,本文只把它视作一个词形①。对于词典中收录的汉字,本文不区分它究竟是语素字、语素还是词,统称为字或单字。所以文中提及的单音节同音词实指同音字。按照读音是否带调,同音词(字)又分为无调同音词(字)和带调同音词(字)。 2.词形和词次。词形指词的书写形式,对单字来说也可以称为字形。每个词(字)形在文本中出现一次称为一个词(字)次。 3.拼音、音节与音节形式。单字的读音称为音节,音节是语音的基本单位,无调音节称为音节形式。单音节读音和多音节组成的复合读音统称为拼音。因此,在汉语中每个词(字)都有三个属性可以进入统计:词(字)形、词(字)次和拼音。本文的统计分析未涉及词义或字义。 4.拼音载词量。拼音载词量是指词库中词形总数与拼音总数之比。相关文献对于单字所作的该项统计称为“音节载字量”[6],而未曾涉及多音节词的有关统计。为此本文把它们统称为“拼音载词量”。拼音载词量可以反映同音词辨识的困难程度。 5.同音率和同音度。具有同音词的拼音在拼音总数中的比率叫做同音率;一个拼音所对应的同音词形的个数叫做同音度[1]。同音率与拼音载词量都可以用来描写汉语同音词的特性,它们的分母相同,但同音率计算公式的分子是同音词拼音的个数,而拼音载词量计算公式的分子是词库中词形的总数(包括非同音词)。 6.音节数。音节数指一个词的读音中所包含的音节个数,等同于词长②。儿化音不算音节,所以带儿音的词的音节数不增加。 7.静态统计和动态统计。根据资源的不同,本文使用了静态统计和动态统计两个概念。静态统计是指对词表中词形及其拼音的统计。动态统计是指对词形及其拼音在语料库中出现次数的统计。 三 三种资源 本文进行汉语同音词统计时所用的三种资源分别是:1)《现代汉语词典》第4版[7],下文简称《现汉》;2)微软办公软件Office使用的IME4词典③,用IME表示;3)国家语委现代汉语平衡语料库[8],用NCC表示。 (一)资源的规模 三种资料的规模如表1所示。
(二)资源的特点 作为我国第一部发行量最大的现代汉语词典,《现汉》的权威性和科学性至今无出其右。本文使用的是根据《现汉》(第4版)人工录入计算机的电子版本。根据统计结果,它包含了58606个词形和48366个拼音。 IME词典是微软公司Office办公软件所使用的汉语词典,收录了《现汉》中不收或未单独成条目的繁体字、异体字和一些不常用的词(字)等,其中每个字/词的简体后都标有对应的繁体,本文只统计了其中的简体字词。据统计,IME包含的单字为18102个,多于《现汉》收录的8465个单字。在多音节词中,除了双音节词,IME收录的词形数都比《现汉》多一倍以上,拼音数量也相应增多。IME的词形总数达到了93556个,拼音总数为59121个。可见IME词典作为办公软件使用的电子词典,收录的字词更加广泛。