现代汉语AABB重叠式词构成基础的统计分析

作 者:

作者简介:
任海波 上海师范大学语言研究所 200234

原文出处:
《中国语文》

内容提要:

本文用语料库语言学的方法,在一亿字真实文本的范围内统计分析AABB重叠式词的构成基础。发现AABB式词越是常用,其AB为词的可能性越大。AABB式词是能产的,表现在:随着语料字数的增加,AABB式词也就不断增加;偶发性的词大量存在。A和B构成AABB应满足能使AA和BB均衡地承载整体语义的条件。语义结构为并列式的A和B,最容易重叠成AABB式词;非并列的A和B则要经过语义的重新分析,才能重叠成AABB,以满足AABB对AB选择的需要。


期刊代号:H1
分类名称:语言文字学
复印期号:2001 年 11 期

字号:

      AABB重叠格式是现代汉语诸多重叠格式的一种,它的构成、句法功能、语义特征及修辞作用都曾引起人们的广泛关注。不少研究重叠的文章都或多或少地提到了它,专题研究就我们所见少说也在十篇以上,且大都发表于二十世纪八九十年代。大多数学者从自己关心的角度出发,或从所掌握语料的特点出发,对这一语言现象作了多方面的分析,有些分析是相当深入细致的。尽管如此,我们觉得有些问题还是不那么清楚,例如:这种重叠式有没有一个共同的构成基础?它是不是能产的?它的各种语法功能特征究竟说明了一些什么问题?此外,在进行语料库加工的过程中,我们要对文本进行分词和词性标注,在把AABB重叠式切分为一个词之后,(注:真实文本语料中的AABB音节序列不都是词,例如:“海海关关”在“上海海关关长…”中、“东东阿阿”在“山东东阿阿胶厂…”中。在我们搜索的语料范围内,33.3%的AABB音节序列都不是词。这对人来说,要识别它是不是词应该没有什么问题,但对于计算机来说,要识别它不那么容易。这个问题,我们将另文探讨。此外像“哥哥姐姐”、“常常看看”等这样的AABB式的短语也不在本文讨论范围之内。)我们该给它标注什么词性?尽管已有这方面的加工标注规则(参看俞士汶1999),但是由于AABB重叠式本身的复杂性,我们在实际的操作中依然遇到一些难以标注的情况。这些都使我们产生了重新描写这一现象的想法。我们用自己设计的程序查找了一亿字的语料,把所有包含AABB重叠格式的句子摘了出来,然后建成了一个AABB重叠式数据库。在数据库的基础上,我们对AABB重叠式词的构成基础作了一些统计分析,希望这种分析对语法理论问题的探讨和语料库加工问题的解决有所帮助。至于AABB重叠式词的句法功能和词性等问题,我们将另文讨论。

      一 AABB中AB的性质

      在以往一些论述AABB的文章中,有一种倾向是把AABB重叠式的构成基础看成是词,即AB是词,经过重叠构成AABB。例如:“漂漂亮亮、干干净净、安安稳稳”,它们的构成基础“漂亮、干净、安稳”都是一个词。于是不少文章的注意力就主要集中在能构成AABB的AB式词的范围或由AB构成的AABB式词的各种特点上。然而,AB本身是词,这只是反映了AABB式词的构成基础的一个方面,其实大量的AABB式词的构成基础AB本身并不是词。这一点有不少文章都提到(董树人1982、郭志良1987、张谊生1999等),而早在二十世纪五十年代,陆志韦先生在他的一篇短文中就已经指出了这一现象(陆志韦1956)。不管AB本身是不是词,AABB是由A和B构成的,这是显而易见的。我们感兴趣的是:既然AABB中的AB不都是词,为什么以往的研究没有对此给予应有的重视?AABB中的AB成词跟不成词的比例在实际的语料中有什么表现?尤其是它跟词的频率的关系如何?

      我们在一亿字的语料中,共查到AABB重叠式词2734个,例句总数37862句。我们先考察所有这2734个词中的AB是否为词的情况。由于对什么是词的标准认识并不统一,所以我们从较严和较宽两个不同的角度来看AB是否为一个词。我们先对照《现代汉语词典》(商务1978年12月版),(注:据该词典《前言》介绍:本词典中所收条目共约五万六千余条。由于该词典的编写带有促进现代汉语词汇规范的目的,所以我们认为它的收词标准是相对较严的。)发现2734个中只有1205个中的AB可以是一个词。这个比例是44.0%。然后对照清华大学孙茂松等研制的《信息处理用现代汉语分词词表》(1999年4月内部交流版,共75884个词条),(注:该词表主要是为现代汉语的信息处理用,它主要是用统计的方法作出。两个常在一起出现的语言单位,一般就被当作一个词收入词表,所以我们认为它的收词标准是相对较宽的。)我们发现有1337个中的AB可以是一个词。这个比例是48.9%。这个数据使我们确信AABB重叠式的构成要素是A和B,但是它们的组合AB本身不一定是词,而且从总体上看,AB不是词的AABB要比AB是词的AABB多。

      再从频率的角度看。根据每个AABB式词的例句数(即在一亿字语料中出现的次数)与总例句数(即在一亿字语料中AABB式词出现的总次数)的比例,那么可以知道AABB式词的出现频率。下表是AABB式词的频度变化与其构成基础AB本身为词的频度变化的关系表。

      表一:AABB出现率与AB成词率关系

      

      上表显示:AB的成词率与AABB的出现率呈现一种正向协同关系,AABB的出现率越高,其AB的成词率也就越高。这一事实可解释为什么不少人会想当然地以为AABB重叠式是由AB式词构成的。在我们的语料中,1%出现率以上的AABB式词只有10个。根据频率从高到低的次序排列,它们是:许许多多、实实在在、清清楚楚、扎扎实实、干干净净、千千万万、大大小小、上上下下、轰轰烈烈、老老实实。其中“轰轰烈烈”的AB“轰烈”不是词。由此可见,即使最常用的AABB式词也并不都是由作为词的AB重叠构成。从反方向看上表,AABB的出现率越低,AB的成词率也就越低。我们把只有一个例子的AABB式词作了统计,发现AB的成词率只有29.3%(《现代汉语词典》)和34.1%(清华词表)。如果AABB式词是封闭的,那么可以把低频词作例外处理,然而,我们的语料显示AABB式词是开放的、能产的,因而不能忽略低频词的存在及其构成特点,更不能忽略存在于高频词与低频词之间的共同特点。

相关文章: