一 问题的提出 汉字字集中有些记录基本词汇或与传统思想文化特别相关的单位,每每引起人们探源的兴趣。由于上古传世文献经历代传抄未必能反映相关断代文字使用历史真实面貌的缘故,这种探究的视线总是落在上古出土文献上。然而结果往往令人扫兴:它们并未在早期出土文献中被发现。于是学者每每怀疑,这类字只是在目前我们可以寓目的早期出土文字材料没有出现,并不等于它在相关断代文字的字符集中真的没有: 也有可能在将来有新的资料发现,有更充分的证据来说明这些字在甲骨文中或商代其他的文字中确实存在。因为周公说过:“唯殷先人,有册有典。”(《尚书·多士》)目前我们看到的殷墟甲骨文还不算是典册,而且刻在甲骨上的文字也非商代的全部文字。也有可能有的字或词存在于商王朝的典籍中,只是目前尚未发现。① 出土文献材料的考古发现,具有一定的偶然性,我们如果只是期盼着“将来有新的资料发现”来解决这种疑难问题,不知要等到猴年马月。 这种遗憾也存在于古文字考释中,但有另有一种表现方式。人们考释古文字,往往会用一种“当有而无”的证明方式,即在新释某字(通常是很常用的字)的考释论证中,首先指出在既有释读的视野里,如此重要的文字居然不存在。其基本逻辑大致是:某种古文字材料中按常理应有某字,但迄今却尚未被认出来,因此把它新释出来就有了合理性。“当有而无”的手法是调动人们常识的论证方式,通常颇具说服力。但细细推敲,会发现这种简单的“当有”判断似乎还缺少一点逻辑的严密性,因为一个字无论多么常用或者重要,我们也不能保证它一定会覆盖各个断代,因为它所对应的语言单位可能是由另一个字来记录的,甚至这种语言单位也可能并不存在于某一断代。显然,如何才能使“当有”的判断更令人信服,同样是一个值得进一步研究的问题。 由此可见,上古出土文献某字存否的合理判断,对涉及古文字的多种研究的科学性都会产生一定影响。因此,这个问题的无解,不应该继续延续下去。鉴此,本文尝试运用一种新的方法来谋求破解这个难题。 2013年,笔者就出土文献语料特点的判断提出一种思路:“历史文献的语言表达,是通过文献用字的意义组合来实现的,其话题热点的形成,取决于话语表达中语言文字单位的使用状况:谈论农耕之事,必多用稼穑类字词;讨论征战之事,必多涉杀伐兵戎。因此,在对相关文献进行逐字意义认定描述后,将其纳入一个能够全面反映语言交际内容各个方面的意义分类框架,进而凸显相关文献语言的话题热点、话题边缘乃至话题盲区所在,只有话语热点的部分,才视其具有反映相应断代真实语言状况的可能。这样,我们就可以确认特定文献语言的话题类型和语言属性,进而明确其汉语史视角的认识价值和研究意义。”②不难发现,这种思路对于探讨具体文字在某一断代文字材料中是否存在同样有效,这是因为:如果某种文献的相关话题类别的文字运用能否全面反映相关断代的字集实际状况,以及相关话题类别所包含的文字单位及其所可能出现的所有文献语境都能明确,我们就可以把视线收束于要求相关字必须出现(如果它真的存在的话)语境,通过地毯式搜索来确认相关断代之文字系统是否有某字存在。 上述研究思路很可能会受到可行性的质疑。相关文献的逐字意义认定,是这个思路得以实施的基础,而这个基础的打造又会面临这样两个问题:第一,以目前的古文字释读水平,我们能不能全面地确认上古出土文献用字的意义;第二,以目前的古文字处理能力,我们能不能完成海量文献用字分类数据的整理和计算。笔者认为,基于古文字研究以及古文字数字化处理的已有成绩,对这两种质疑,都可以给出肯定的回答。 早期出土文献具有较大的释读难度,某些文字确实尚且不识或存在较多释读的分歧。但是,此种释读障碍总体而言却属于小概率事件。在古文字考释研究已取得重大成绩的今天,凡面世已有一定时间长度的出土文献材料,都不存在大面积释读障碍。况且,存在释读障碍的字在文献语言中总是属于罕见者,它们主要是因为罕见而不能被顺利释读;而已释字,多为文献语言中的常见者,越是常见,就越容易被释读。因此,就古文字文献整体释读,即关注每个字在文献中的每一次出现之意义的读解而言,存在释读障碍字的数量劣势又会被几何级数地放大。同时,大多数古文字的释读障碍,表现为字的归属不明,即不能确定古文字某字属于后世字书所收之某字,但其所表词的归属却是清楚的;还有些古文字未识字,虽然字、词的归属都不能确定,但却不难知晓其大致用法,如人名、地名、国族名用字等。而真正属于字、词归属乃至在文献中的用法都不清楚的在所谓“未识字”中只是一小部分。而对于前文言及的文献语料特性判断所要求的文字释读而言,只有这少量“未识字”中的一小部分才是真正的障碍。显然,在以文献用字穷尽式逐字释义为特征的文献语料特点的判断所形成的海量数据的环境中,少量数据的缺失并不会影响整个数据呈现其本质信息。 当然,面对如此海量数据,并需要作各个层次和方面的统计分析,传统纸笔操作的古文字研究手段是难堪其任的。与大数据相匹配的,是数字化的文字处理手段。古文字的数字化处理,虽然在中文信息处理中进展相对滞后,但近年来已有长足发展,仅以笔者目前主持的国家社科重大课题“出土古文献语料库建设研究”而言,其最终成果即为包含先秦各类出土文献材料的网络公共语料库,该语料库的建设内容之一就是完成文献逐字释义并按意义类别完成字群分类。事实上,立足语料库的数字平台支持,我们已经完成了合理抽样材料的甲骨文、西周金文、战国楚简以及秦简的逐字意义分析归类,进而作出其语料价值特点的初步判断。③ 综上,可以得到这样一种认识:在目前的古文字研究成绩的支持下,本文提出的关于“出土文献某字存否”的研究思路是可行的。然而,要把这一研究思路的各种实施细节表达清楚,还需要借助于个案讨论。为此,我们选择近年来被溯源讨论较多的“信”字为例,来具体论述实施这一研究思路需要解决的若干问题,以期为汉字字源探究中的一种难题的破解提供一种切实可行的方略。