中图分类号:H109.2;H124 文献标识码:A 文章编号:1000-1263(2001)03-0069-16 一 引子 1.1 网络资源利用 随着计算机技术的迅猛发展,互联网上的中文文献将会越来越多。这是一个前辈学者无缘一见的宝库,而今摆在了我们面前,我们没有理由把自己关在门外。 作为汉语、汉字研究人员,对于浩繁的网上资源,除了一般的阅读、学习外,还有一个收集、分析、研究的任务。虽然网上的电子文本常常流于粗糙,校对不精,还存在内码不一、格式不一、出处不详、缺字严重等问题,但它所具备的共享性及便于查找、引录、对比、统计等优点,却是书本文献无法比拟的。正是基于这样的考虑,笔者两年来广泛收集了上百种有代表性且较准确的古代中文文献(注:大部分从国际互联网上下载,小部分接受友情馈赠。材料来源用到的主要网址有: http://www.sinica.edu.tw/ftms-bin/ftmsw3; http://chinese.pku.edu.cn/wenxzl.htm; http://www.bookbig.com/culturel.html.),并相应进行了统一内码、统一格式及部分重校等基础工作。此外,我们还亲自制作了一些简单实用的程序(注:所用主体程序是郭小武《中文词语检索系统for Word 97》(V1.0),中华人民共和国国家版权局1999年10月21日,软著登字第0003834号。),建立了规模庞大的词库,这些都为研究工作提供了很大方便。我们相信,新的材料形式和新的处理手段,应能为科研成果的推陈出新带来更多更好的机会;最少从理论上说该是如此。 本文是笔者近期所做字频、词频系列研究中的一个分支课题。 1.2 频级情况介绍 由于字频是个连续体,因而分级总带有人为性。《汉字信息字典》既分“字级”,又分“频级”。“字级”有三,分别对应于《国家标准》基本集(GB2312-80)的一、二级字和未收字;“频级”凡五,采取郑林曦、高景成主编《汉字频度表》的最常用字(1-560)、常用字(561-1367)、次常用字(1368-2400)、不常用字(2401-4170)、偶用字(4171以次)。其实,“字级”是“频级”的折射,二者都是对于字频的分级,也都带有人为性。 极高频字即最常用字。用较大规模频率统计方法对古汉语文献最常用字的情况进行摸底、分级和探讨,本身是个新的尝试。但因论文容量有限,不大可能讨论很多的字,所以本文拟以其最常用的100字作为主要讨论对象。本文把这100字分为“极高频A级”10字,“极高频B级”20字,“极高频C级”70字。 1.3 极高频字的提取和考察目标 关于极高频字的提取,需要简单说明三方面的情况:其一是所依据的材料;其二是所采用的方法,其三是所统计的结果。材料上,本文以典型性为基本要求,同时注意保证量的充足。方法上,本文以类型分析为基本框架,在对单部著作进行统计的基础上进行综合的统计、分析。本文所统计结果是从有关文献全部字频中筛选出来形成的,程序本身无差错,差错率随文本质量变动。 本文的统计、提取和研究,一是为了摸底,求其然;二是为了解释,求其所以然。我们尝试解答以下几个问题:在古汉语里,究竟哪些字属于极高频字?为什么它们能够成为极高频字?它们的分布和构成有什么特点?它们在断代的汉语系统里充当着怎样的角色?它们在历时的汉语系统里经过了怎样的演变? 二 极高频字的统计 2.1 “专书-综合”极高频字的统计与说明 2.1.1 “专书-综合”极高频字统计简表(表1)
2.1.2 B、C两级字的补充 表中"B30"及"C100"分别是“极高频B级”与“极高频C级”的最后一字,上面均有省略,按降频补充如下。 《左传》B级:于晋於君有侯为月师王使齐大楚无郑将伯国诸;C级:焉如夫与伐是矣可及宋卫叔孙何我乎氏十二故命年吾盟三夏者归从陈会请能则必若谓来礼杀臣乃出春秋事成入自冬行在所卒先死遂至民告言吴知文季奔弗对又许。 《论语》B级:有矣为於君乎可如与言无则问知何吾仁夫道焉;C级:行谓礼必孔斯三能见学哉事是闻公未路我好在已所得小天民乐邦亦使大下欲贡诸政从文食善後德求恶对信死然仲由非一过出足虽居夏己及父予尔张友色季成今立。 《诗经》B级:无人维如既尔矣王君言在天心是何什止为方载;C级:予民思女南大来匪斯公四亦山行归莫也命乐且此自忧可曰月日采则将靡与岂德中百文国孔车风实生见东者酒或谓下胡周小鱼而哉侯弟榖云皇乎福式士父衣所食明。 “综合”B级:有于晋君於为侯无王月师大使我齐楚如矣郑将;C级:与可是夫伯国何焉诸乎者及伐孙叔宋卫命十氏吾盟则二三言年故归在从谓夏能行来必礼陈事民自出请知天会所若成乃臣杀入文死春亦冬秋先至卒告见遂父未德既。 2.1.3 次数与频率说明 《左传》、《论语》、《诗经》用字数据详见表2-2。 综合以上三书,带标点总字数310904,不带标点总字数242983,标点占22.85%;三书所用单字共统计到4213个。