谈谈汉字研究中的统计方法

作 者:

作者简介:
费荣昌 无锡轻工业学院数学教研室 214036

原文出处:
语言文字应用

内容提要:


期刊代号:H1
分类名称:语言文字学
复印期号:1995 年 06 期

关 键 词:

字号:

      在汉字研究中正在越来越多地使用统计方法来分析与汉字属性有关的指标。原先对数理统计不怎么熟悉的语言文字工作者,多了解一些有关的知识,对促进汉字从定量到定性的研究,显然是有好处的。

      在统计分析中,统计对象的全体所组成的集合叫做总体,组成总体的每个统计对象叫做个体。例如在通用汉字的笔画形状统计中,《印刷通用汉字字形表》所收6196字的笔画共65535笔组成总体,每笔都是个体。又如在字频统计中,总体是整个汉语书面语资料的全部字符,个体是书面语资料中的每一个字符。

      统计对象是由研究课题决定的,确切地说,统计分析的对象是指研究对象的某些指标。在汉字研究中,与汉字的形、音、义、量、序等属性有关的指标有数量指标和模糊数量指标两种。如笔画数、字频等是数量指标,而形声字形旁表义度、声旁表音率等是模糊数量指标。

      统计方式有全面统计和抽样统计两种。在通用汉字的笔形统计中,对6196字逐字逐笔作静态统计,这是全面统计。字频统计是动态统计。不可能对总体作全面统计,只能抽取部分书面语资料作为统计语料。国家语言文字工作委员会在1986年制定《现代汉语常用字表》时,抽取了从1928年到1986年间的各种统计资料共7000多万字作为统计语料。这种由总体的部分个体组成的集合,叫做样本。样本中所含个体的个数叫做样本容 量。根据样本的分析来对总体的特性进行估计和推断,这就是抽样统计。 

      为了保证估计和推断的正确性,样本要尽可能反映总体的特性,即样本必须是具有代表性的。为此,抽取样本应采用随机抽样,即总体中的每一个个体被抽到的机会应是均等的。实施随机抽样的办法有抽签法、随机数表或计算机模拟等。

      统计结果的准确性还与样本容量的大小有关,样本容易越大,统计结果的准确性越高。例如在520934字的语料中,“的”字出现20648次,即“的”字的使用频率为3.96%。这个统计结果的准确性可用相对误差来表示,其中总体频率f是未知的,样本频率

      通常用频数分布表来描述样本的统计规律。例如,《汉字写法规范字典》(上海辞书出版社,1992)所收的7047字的笔画统计表如下:

      笔画数  1  2  3  4  5  6  7  8  9  10 11

      拥字量  2  21 59 137 201 347 548 694 790 765 727

      笔画数  2  13 14  15  16  17  18  19  20  21  22

      拥字量679 555 416 336 281 187  90  81  51  28  22

      笔画数 23 24  25 26以上

      拥字量 12

      8

      73

      这是一张笔画的频数分布表,从这张表可以看出7画到13画的拥字量较大,4画到6画、14画到17画的拥字量居中,其余笔画数的拥字量较小,频数分布表从整体上反映了样本的分布规律。

      在统计分析中,还必须用数字来反映样本分布规律的特征,这种数字叫做特征数。平均数是常用的特征数,它反映了样本分布的集中位置。另外,还有一个重要的特征数,叫做标准差,它反映了样本分布的分散程度。平均数已被语言文字工作者普遍采用,但是标准差却使用不多。

      下面以汉字索引为例对平均数和标准差作一说明。

      按某种字序法把统计字料分成n类,第i类的拥字量为X[,i],

      表示对它后面的项I从1变到n求和)

      这里,平均数就是每一类的平均拥字量,标准差则反映拥字量分布的分散程度。标准差越大,拥字量围绕平均数就分布得越分散。

      《汉字写法规范字典》中的笔画查字表是按笔画分类的,各类的拥字量如上面的笔画统计表所示。经计算,各类拥字量的平均数等于271,标准差等于276。该字典中还有汉语拼音索引,是按每个汉字拼音的第一个字母分类的,各类的拥字量(含多音字)如下:

       字母A

      BCDE

      FGHJKLM

      拥字量 85 365 478 382 50 231 347 388 603 213 551 324

       字母NO

      PQRSTWXYZ

      拥字量 185 17 267 366 106 526 320 226 452 661 631

      经计算,各类拥字量的平均数等于338,标准差等于180.8。对于汉字索引来说,标准差越小,即各类拥字量参差不齐的程度越小,分类就越好。把笔画索引与拼音索引作比较,后者的标准差较小,所以从这个意义上说,拼音索引优于笔画索引。

相关文章: