1 引言 短语是现代汉语重要的一级语言单位。汉语学界对短语的研究相当深入,但以往的研究通常是依语言学家的语感。詹卫东(2000:17-19)曾对现代汉语的短语结构规则进行了全面和系统的研究,其研究虽然使用了少量的语料,但主要依据是语言学家的直觉。汉语短语研究定量的研究分析仍然不足。目前,很多中文信息处理系统需要量化的研究成果。例如,现代汉语自动句法分析。一种分析方法是自底向上的:一般是先由词到句法结构,也就是首先组合成短语,再由短语和短语组合成更高一级的句法结构。比如分析句子“香港基层组织积极推广基本法。”
图1 句法分析示例 在自动句法分析中,机器通过访问机器词典可以得到某个词语的语法功能。现代汉语的词语不过数万,我们可以把绝大多数词语收入机器词典。如图1所示的例子,机器词典中可以存放“基层”和“组织”两个词,并存放有“基层”可以做定语、“组织”可以做定语中心语的信息,机器据此把“基层组织”归约为定中短语,那么“基层组织”这个短语实例的语法功能又是什么呢?不同于词汇,短语实例是一个开放的集合,短语数量是无限的,我们不可能把所有短语实例都收入机器词典。问题就出现了:在自动分析中,机器如何确定一个短语实例的语法功能呢?设想有如下方法:1)短语实例的语法功能等同于短语类型的语法功能;2)短语实例的语法功能等同于短语核心词的语法功能;3)综合上面两种方法或其他的计算方法。我们希望能够解决的问题是:短语实例的语法功能和哪些因素关系最密切,能否用简单的方法确定一个短语实例的语法功能。 2 我们的考察方法 2.1 统计方法 语料库语言学给出了新的方法,通过对大规模语料的统计,以统计数据来分析语言事实。本文通过对大规模语料库的统计来研究短语的语法功能。 2.2 语料资源 本文的研究使用清华大学建设的汉语树库(以下简称清华树库或树库)。有关清华树库的详细介绍,可以参看周强(2004)。清华树库规模比较大,有100万词,而且对每个句子做了比较细致的句法标注。本文根据研究需要自行编写了计算机程序进行统计和分析。 2.3 本文所考察的短语类型和语法功能 树库中共有16种句法结构,本文选择其中的6种:主谓结构(ZW)、述宾结构(PO)、述补结构(SB)、定中结构(DZ)、状中结构(ZZ)、介宾结构(JB)。选择这6种结构的原因有两个: 1)在汉语短语的结构分类问题上,究竟划分出多少类,语法学家们的观点并不一致,但本文上面选择的6种是多数学者赞同的。 2)这6种结构出现频率相当高。本文统计到树库中所有层次大于等于2的结构实例的总次数为480818例。(注:层次仅为1的结构实例在语料库中通常是文章章节标题,对研究词的语法功能是有价值的,但与本文这里考察结构的语法功能并没有关系,所以没有计入总数。以下统计与此相同。)文考察的6种结构实例总计396632例,占总数的82.49%。参照陈小荷(2002)在划分词类时定义语法功能的方法,本文把语法功能定义为出现在结构中的哪个位置。如出现在主谓结构中第一个位置,就是可以做主语,具有充当主语的语法功能。这样本文共得出11种语法功能:主语、谓语、述语1、述宾语、定语、定语中心语、状语、状语中心语、述语2、补语、介宾语。没有包含介宾结构的第一成分,这是因为根据本文的统计,这一成分绝大多数是由单个词直接充当的,由短语充当的仅有9例。 清华树库共设计了11种句法功能标记:名词短语、时间短语、处所短语、动词短语、形容词短语、区别词短语、副词短语、介词短语、数词准短语、数量短语、单句句型。在统计结构的语法功能时,本文忽略功能标记,把不同功能标记但结构标记相同的结构认为是同一结构,如np-DZ、mp-DZ都归为DZ结构。下文将对短语结构类和短语功能类进行统计与分析。 3 结果分析 3.1 短语结构类的语法功能分布 本文在前面确定了11种语法功能,各种结构可能具有除此之外其他的各种语法功能,本文首先统计了某一结构充当11种语法功能的总次数,然后统计该结构的总出现次数。这样本文就可以得到结构作为所考察的语法功能的出现次数占结构总出现次数的比例。 表1 11种语法功能的出现比例
表1中主谓结构11种语法功能的出现比例偏低,这是因为主谓结构的成句能力强。数据表明本文所选择的11种语法功能是6种结构的主要语法功能。 把某一结构充当某一语法功能的次数除以该结构充当11种语法功能的总次数就得到了表2。如果使用频率来估计概率,可以认为某一结构充当某一语法功能的概率在数值上等于这个数量比例值,下同。分析表2可以得到以下结论: