汉字的输入方法可以分为拼音输入和编码输入两大类,每一大类又有许多小类,有许多不同的设计,如编码设计中就有笔画码、笔形码、表形码、部件码等。在社会上很有影响的五笔字型就是部件码。部件码的设计是把汉字拆分(也叫切分)为几百个基本部件,然后把基本部件转换为代码,再按照一定的规则把代码安排在键位上。把汉字拆分为基本部件是部件码设计的关键。由于汉字数量繁多,结构上带有无序性,汉字的拆分遇到很多困难。不同的学者着眼点不同,采取的拆分原则不同,拆分的结果自然有许多歧异。例如“赤妻羌争丧”这五个字,《汉字信息字典》(李公宜、刘如水主编)认为是独体字,每个字只有一个基本部件;而《汉字属性字典》(傅永和主编)认为是合体字,“妻羌争”各有两个基本部件,“赤丧”各有三个基本部件。又如“彭”字,《汉字信息字典》拆为十豆彡,豆不拆,作为一个基本部件;《汉字属性字典》就拆为十一口
彡,把豆拆为三个基本部件。已经实现了的部件码设计,在拆分上都存在着或多或少的任意性和不规范性。任意性指的是没有明确的拆分原则,或虽有拆分原则但是不能贯彻到底,表现为拆分时的随心所欲。不规范性指的是拆分不符合汉字字形的规范,例如把“牛”拆为
和丨,把“未”拆为二小。上述这些问题的存在影响了部件码设计的科学性,不利于汉字教学和汉字的应用。为了早日结束汉字编码的万“码”奔腾时代,使编码设计得到优化,有必要对汉字拆分进行规范。舆论界多次呼吁国家主管部门制定汉字部件规范,不少学者也对汉字的拆分进行了研究。1995年9月,国家语言文字工作委员会下达了研制《信息处理用GB13000.1字符集汉字部件规范》(以下称《汉字部件规范》)的科研项目,组织了课题组,落实了研究任务。经过一年多的努力,课题组完成了研制的任务,制定了《汉字部件规范》。不久前,《汉字部件规范》已经通过技术审定,将要发布实施。这就解决了中文信息处理中汉字拆分的分歧,而且有利于普及科学的汉字知识,在全社会树立语言文字规范意识。 这次制定的《汉字部件规范》内容翔实、细致周密、科学准确、切合实际,在汉语言文字规范标准研究领域内属国内外领先水平。它具有以下几个特点:第一,这个规范适用于信息处理领域的设计、管理、科研、教学和出版等方面,并可供汉字教学参考。供信息处理用的汉字部件拆分和供识字教学用的汉字部件拆分,有许多共同点,也有一些不同点,有时不能兼顾。供信息处理用的,只能从现代汉字的字形出发,要制定形式化的、便于操作的拆分规则,要拆分到基本部件;供识字教学用的,要尽可能地考虑构字的理据,不一定都拆到基本部件,着重第一级部件的拆分。《汉字部件规范》首先是供信息处理用,明确这一点很有必要。第二,它符合国家公布的有关汉字的各种规范。它根据GB13000.1确定了字量和字种。每个字的字形,包括结构、笔画数、笔形、笔顺,都符合国家规范。对字的拆分,符合汉字构形规律,没有怪异拆分。在这一点上,它胜过以前发表的各种部件码编码方案。第三,它吸收了计算机编码技术的研究成果和汉字构形规律的研究成果。研制本规范所采用的技术手段比较先进,软件支撑环境实用可靠。第四,实现了信息处理界和语言文字学界的合作。近十多年来,人们不断呼吁信息处理专家和语言文字专家的沟通和结合,这次研究实现了这种结合。双方可以取长补短,促进了学科交叉和理论交融。 总之,这次《汉字部件规范》的制定,对促进部件码的规范和发展具有重要意义。规范公布后要接受实践的检验,以求得进一步的完善。 汉字的部件拆分包括两个方面,即:如何确定基本部件和如何确定组合层次。我在《现代汉字的部件切分》一文中曾讨论过这些问题,现在再谈一些个人看法,向各位专家和关心汉字拆分的朋友请教。 一、如何确定基本部件 基本部件指最小的构字部件,汉字部件规范中最主要的部分就是要制定一张基本部件表。有了特定字集的基本部件表,就可以用这些基本部件组合为字集里的全部汉字。基本部件也叫末级部件。因为部件组合为整字时,是分层次的;所以对整字进行拆分时,也要分层次。由整字拆分出来的部件,按照所属层次,由大到小,分别称作一级部件、二级部件,直至末级部件。采用这套术语,对于标明部件所属的层次比较方便。 确定基本部件,主要要解决好以下几个问题: 1.相交的笔画组合 相交的笔画组合是一个基本部件,不能拆分。这是从形出发得到的重要原则,叫做“交重不拆”,这是完全正确的。例如:“十七九ㄨ力又
丈也女井车丰韦廿卅屯尹毋甘世冉册弗吏曳”。对这个原则,我还想做两点补充。(1)附着在相交的笔画组合上的相接的单笔画,不拆。例如:“干于士土才大巾千王开夫天无专木五牙互中内手毛壬升夭币长本末未耒朱米束丙央戊生失乎西再吏夷垂秉重”。(2)附着在相交的笔画组合上的相离的单笔画,不拆。例如:“寸弋义叉太犬尤戈丹为书玉戋术龙主必母舟甫我”。 从字源说,有些相交的笔画组合应该拆分。例如“夷”,《说文》认为是从大从弓;“重”,《说文》认为是从东声。但是从现代汉字的字形出发,不能拆分。 2.相离的笔画组合 相离的笔画组合要拆,分隔沟是重要的形式标志。例如:志→士心│讨→讠寸│崩→山月月│树→木又寸│国→囗玉│尾→尸毛。 两个相离的对称部件,不分开用以构字的,不再拆分,例如:兆竹非癶。这样处理可以减少基本部件的数量,而且便于应用。 相离的笔画组合,被分隔沟分开的几个部分,如果都有构字能力(至少还可以组成另一个字),大家都同意拆开,例如“点杰烈热煮”。如果其中有的部分没有构字能力,拆还是不拆?例如“黑”,灬有构字能力,
没有构字能力。又如“渊”,氵有构字能力,
没有构字能力。现有的处理办法并不一致。对这类字是拆还是不拆,各有利弊,我个人认为拆开利大于弊。因为分隔沟是区分部件的显性标志,被分隔沟隔开的笔画组合,最好是从分不从合。这样处理会使相同的笔画组合得到相同的对待。还以“黑”字为例,拆开以后,其中的灬,和“杰点烈烹”里的灬是相同的部件。这也就是说,灬不论在哪个字里都是部件,容易掌握。如果不拆,就会出现这样的结果,同一个灬,在“杰点烈烹”里是部件,而在“黑”里不是部件。一个笔画组合有或者没有构字能力,着眼于系统内部各字的关系,有一定道理,可是也有困难。对一般用户说,哪些笔画组合有构字能力,哪些没有,很难一下子说出来。另外,一个笔画组合有没有构字能力,有时有相对性。例如“熙”字,第一层拆成了
这个基本部件,如果不拆,增加了“黑”这个基本部件,数量是一样的。因为部件是构字单位,具有相对的独立性,我建议从分不从合。