基于简繁汉字转换的平行词语库建设原则

作 者:
王宁 

作者简介:
王宁,北京师范大学民俗典籍文字研究中心教授,博导。(北京 100875)

原文出处:
语言文字应用

内容提要:

为了加强海峡两岸的交流,简繁之间的对应转换成为当务之急。本文对简化字与繁体字不对应现象进行了分析,说明这种现象产生的原因,并在此基础上提出,解决简繁汉字计算机自动转换准确性的问题,必须从建设一个合乎简繁关系的平行词语库入手,同时提出平行词语库建设的基本原则。


期刊代号:H1
分类名称:语言文字学
复印期号:2008 年 03 期

关 键 词:

字号:

      一 简繁不对应情况的形成

      汉字作为一种记录汉语的符号系统,要受到区别率与简约率的制约,而区别与简约恰恰是一对矛盾,需要在二者之间调适。过去的简化汉字,为了达到简约的目的,对字际之间原有的区别做了一些调整,从两个方面促使了一简对多繁情况的形成:

      第一方面是因为注意到减少字数,采用了较多的同音替代进行简化,或合并了一些已经分化了的字形。例如:

      ①干—干(干犯)、干(枝榦)、干(幹練)、乾(乾燥)

      ②舍—舍(房舍)、舍(捨棄)

      ①是多项同音替代,②是将已经分化的字再行合并。这就必然出现一简对多繁的现象。

      第二方面也是为了减少字数,取消了一批异体字,而这批异体字有一部分不是严格的异体字,无法用正字取代。例如:

      ①背—揹,布—佈,欲—慾②玩—翫,游—遊,志—誌

      ③雕—鵰,哄—閧,斤—觔④昆—崐、崑,侖(仑)—崘、崙,修—脩

      以上四组字,①意义上有包含关系。它们不是异体字关系,而是源字与分化字的关系。②意义上有交叉关系。它们不是异体字关系,而是同源字分化后又通用的同源通用字关系。③仅在一部分义项上有通用关系。它们不是异体字关系,而是个别义项通用的通假字关系,一般在词的异写时表现为局部的同一用途。(注:属字指双音词中被分辨字的另一个语素所用之字,例如:“复活”,“复”是“活”的前属字,“活”是“复”的后属字。属字的概念也可以扩大到符合规律的词组,例如:“吃面”,“吃”是“面”的前属字,“面”是“吃”的后属字。)声音相同意义毫无关联。它们不是异体字关系,而是通假字中典型的同音借用字关系。既然前面一个字代替不了被取消的字,也可以视为一种替代,一对多的情况当然也会产生。

      这两种情况,都可以称为“汉字简化系统的字用职能合并”,加在一起,使一个简体字对应两个以上繁体字的情况比比存在。

      二 如何看待汉字简化系统的字用合并

      有人认为,现代汉语以双音词为主,单字组合后,歧义会自然消除,在双音词里消除不了,也可以在具体的语言环境里通过上下文来辨别。持有这种意见的人还认为:古代文言文就有很多因为假借而产生的异词同字现象,发展到今天,也没有产生什么问题,他们认为同音借用完全可以大量应用。

      用古代文献中的假借字来与今天的同音替代类比,是不够妥当的。汉语词汇意义的数量随着人类的认识发展而无限增加,但记录词汇的汉字字数却不能无限增多;因此,在汉字造字时,就有了增字之法与节字之法互相调节的现象。章太炎在谈到“转注假借说”时指出:

      转注者,繁而不杀,恣文字之孳乳者也。假借者,志而如晦,节文字之孳乳者也。二者消息相殊,正负相待,造字者以为繁省大例。(注:见章炳麟《国故论衡·转注假借说》论汉字规范的现实基础及路径选择。)

      对章太炎的说法,陆宗达先生有一个浅显的说明:

      (文字)的发展变化有两种法则:一种是由于社会制度改变,或者由于生产、文化、科学等等的发展,需要创造新词来表达新的词义……从造字来讲,也就要循其声义,各为制字,这就是“转注”造字的法则。另一种是由于文字孳乳日繁,必须加以节制。新的词义产生了……可以利用旧有的词和字而赋予新的词义,不再制造新字……这就是“假借”的法则。(注:陆宗达《说文解字通论》,北京出版社,1981。)

      可见,汉字发展中字数的调节是通过自组织——也就是随着使用的需要自然调节——的管道进行的。有些异词同字现象使用至今也没有改变。例如:

      “容纳”与“容貌”共用“容”字;

      “花卉”与“花钱”共用“花”字;

      “举国上下”与“举起”共用“举”字;

      ……

      这些共用的字记录的不同词汇在意义上并没有什么关系,属于同音借用,有些借字反而通行了,才形成了一字多用的情况。古往今来,汉字的同音借用产生的异词同字现象,可以自行调节,通过语境、频率、读音等因素加以区别,很多是不会妨碍书面表达的。认为同音借用完全违反科学性,是不符合汉字应用的事实的。但是,假借现象虽然存在,却不能违背区别率而无限增加。在古籍里,很多同音借用字又用增加偏旁的方法产生借义分化,就是对异词同字现象的一种限制。例如:

      “舍”本义为“房舍”字,借为“舍弃”字,后来产生“捨”字;

      “开闢”“逃避”“偏僻”原来共享“辟”字,后来分化出“闢”“避”“僻”三形;

      “商贾”与“贾值”共享“贾”字,后来分化出“价(價)”字;

      ……

      这些后出本字的产生,就是在区别率的制约下,对汉字假借的控制。所以,即使在古代,同音借用也不是一律无碍,也要在发展中自动调节。汉字在文言文里的异词同字现象,经过两千多年的语言文字自组织调节,已经逐渐从多方面找到出路:有些产生了后出本字而分化,有些另造了新字而分化,有些因为形成了双音词而分化,留下来的经过协调,不会造成严重歧义了。而简化汉字是用人为的手段在极短的时间来代替这种历史长河中的自然协调,而且带有强制使用的性质,如果不遵循科学性,就会造成汉字使用中的极大不便。使用同音借用来求得笔划和字数的减少,首先要进行研究和实验,可以采用但必须慎重,对增加异词同字可能产生的歧义事先应当测算统计,这样才不会为了减少笔画和字数而在表达上产生新的负面效果。

相关文章: