中图分类号:H14 文献标识码:A 文章编号:1000-2979(2001)03-0001-09 一 引言 汉语中,对于一些词类的某些功能的数量统计往往有很大分歧。比如一般认为形容词绝大多数都能做定语,而根据我们的统计,只有29%的形容词可以直接做定语;邵敬敏(1995)认为双音动词中,能直接做定语的有90%,而根据我们的统计只有35%;徐枢(1991)认为,能受名词直接修饰的双音动词约占三分之一,而根据我们的统计只有7%。为什么会出现如此大的分歧?造成这种分歧的根本原因是词频与词的语法功能的相关性。 词频与词的功能有一定的相关性,这种相关性对不同词类、不同功能而言,情况有所不同。一方面,同一功能在不同词类中与词频相关性可能相差很大,比如做主语的能力在动词中随词频下降而显著下降,但在名词中没有显著变化。另一方面同一词类的不同功能与词频的相关性也可能相差很大,比如形容词做定语的能力随词频的下降而显著下降,但做组合式补语的能力却无显著变化,而做谓语的能力随词频下降反而上升。 我们下面将统计计算形容词、名词、动词功能与词频的相关系数,并分析词频与功能的相关现象反映了什么实质。其他词类由于数量较少,难以说明其功能与词频的关系;或由于功能单一(如区别词、副词),无需考虑其功能与词频的关系,因此不再计算这些词类的功能与词频的相关系数。 本文所依据的是北京大学中文系和计算语言所合著的《现代汉语语法信息词典》(电子版本)43330词的考察材料。统计中使用的词频表由北京语言文化大学宋柔教授提供,该词频表共收词244574个,从2亿字语料中统计得出。词典中同形词分成不同词条,多义词有的也分成不同词条,但词频表中对同形词、多义词都未分条目,造成词类表中同形词和多义词的多个词条共享词频表中的同一词频的情况,比如“婉转”在词频表中词频为111次,在形容词表中有两个“婉转”词条:婉转1——委婉义,婉转2——抑扬动听义,如果把两个“婉转”的词频都作111显然不合适,凡遇到这种情况,我们一律只取同形词和多义词的第一个词条,其他词条为无效词条,不进行统计。 二 词频与功能相关性统计 2.1 词频与形容词功能的相关性 形容词共2355条,去除同形词、多义词重复词条15条,有效词条共2340条。把这2340条有效词条按词频排序,并按词频高低分为五级,每一级共468条。分级统计形容词功能见表2.1-1。 表中"r"表示词频与具有某项语法功能的词的数量的相关系数。相关系数反映数组之间的线性相关性程度,计算公式为: r(X,Y)=COV(X,Y)/Sx Sy 其中,r(X,Y)指数组X和数组Y的相关系数,-1≤r≤1。r的绝对值越接近1,表明相关性程度越高,r=1时,两数组完全正相关;r=-1时,两数组完全负相关;r=0时,两数组无相关性。但仅看r值的高低并不能断定两个数组之间的相关性有无显著性意义,是否有显著性意义,还需根据自由度查表判断。自由度=成对数据数目-2。此处成对数据数目为5,自由度为3。查表得知自由度为3时,5%显著水平临界值为0.878,1%显著水平临界值为0.959。即若│r│>0.878,则两数组显著相关(用“+”表示),说明两者有必然的关系,若│r│>0.959,则两数组极显著相关(用“++”表示);若│r│≤0.878,则两数组不显著相关(用“-”表示),无法断定两者有必然的关系。 表2.1-1中相关系数指各级词频的形容词中具有某项功能的词数与中间词频的相关系数。中间词频指该频率级中处于排序中间的那个词的词频,比如1级词共468条,按词频排序,第234条的词频就是1级词的中间词频。 表2.1-1 词频与形容词功能的相关性
从表2.1-1可以看到,除具有“不~”、“谓语”、“很~”、“~的”这四项功能的词的数量随着词频下降反而略有上升(相关系数为负数)外,具有其他功能的词的数量都随词频下降而下降。其中做定语、做状语、做准谓宾动词宾语、做“有”的宾语、受名词直接修饰、做粘合式补语达到显著水平。为了清楚地显示这种现象,我们用相对数量关系来描写各级词频之间功能的数量变化,即把绝对词数转为相对词数。相对词数计算公式为: 相对词数=具有某功能的词数/具有某功能的最高词数 表2.1-2是词频与形容词相关性的相对数量。 表2.1-2 词频与形容词相关性的相对数量
2.2 词频与名词功能的相关性 名词总词数共27408条,去除同形词、多义词重复词条,有效词数27232条。按词频排序,分成五级,每一级平均5446.4条。下面是分级统计结果: