汉语词语重叠结构统计分析

作 者:

作者简介:
邢红兵 100083 北京语言文化大学语言信息处理研究所

原文出处:
语言教学与研究

内容提要:

本文以600 万字的标注词性的语料库(注:本文使用的语料全部来源于北京语言文化大学语言信息处理研究所开发的现代汉语语料库。包括:(1)1995年完成的“现代汉语语法研究语料库”;(2)1998年与香港理工大学中文及双语学系建设的“现代汉语语料库”;( 3)1999年与清华大学计算机系合作完成国家自然科学基金重点项目“语料库语言学研究的理论、方法和工具”子课题“汉语精加工语料库” 等3个语料库,共约600万字。)( 以下简称“语料库”)词表中没有切分的重叠结构和《现代汉语词典》(1996年版修订本,以下简称《现汉》)中收录的全部重叠结构为基础,分析了汉语词语重叠结构的深层结构类型及产生方式,文章还对可以重叠的各类词的主要重叠形式进行了统计。文章得出的主要结论是:汉语重叠结构大部分是由一个词(重叠结构的“基式”)通过不同的重叠方式重叠而成的,但也有相当数量的重叠结构没有基式。


期刊代号:H1
分类名称:语言文字学
复印期号:2000 年 06 期

关 键 词:

字号:

      一 引言

      重叠是词语(注:本文使用“词语”是为了避免重叠结构到底是词还是短语的争议。)的一种构造方式,例如“妈妈”、“常常”、“轻轻”、“摇摇头”、“亮堂堂”、“实实在在”、“平平常常”、“许许多多”、“研究研究”等,这些词语中至少有一个构成成分被使用两次或两次以上。我们知道,汉语的主要重叠式有:AA式、ABB式、AAB式AABB式、ABAB式、A里AB式和AAA式(例如“当当当”、“沙沙沙”)等。我们对各种重叠形式的内部结构进行分析发现:AA式包括三种,一是音节重叠,比如“猩猩、蝈蝈、蛐蛐”等,这类结构属于单纯词;二是语素重叠,比如“寥寥、绵绵”等;三是词的重叠,比如“妈妈”、“大大”、“慢慢”等,《现汉》主要收录前两类AA结构和部分第三类AA结构。ABAB式的内部结构比较简单,这主要表现在他们的基式都是一个词,如果从基式是不是一个独立的词这个角度来说,ABAB式实际就是AA式,只不过“A”代表的是一个双字词, 《现汉》和“语料库”中都没有收入。因此,AA式和ABAB式本文不做分析。

      汉语的这些重叠结构的内部结构似乎用上述的AAB、ABB、AABB等形式就可以形象地表示出来,但是,我们在进行分析的时候发现,同样是AABB结构,它们的深层结构有显著的区别,比如:“恭恭敬敬”是“恭敬”这个词通过语素重叠形成的,“病病歪歪”是单音词“病”和“歪”仿照“恭敬”的方式构成的,“花花绿绿”则是“花花”和“绿绿”直接构成的。重叠结构的内部构造和重叠结构的产生方式是本文分析的第一个内容。重叠结构一般都是由一个词重叠而成的,例如:“妈妈”由“妈”重叠而成,“平平常常”由“平常”重叠而成,“研究研究”由“研究”重叠而成,朱德熙先生把前者叫做“重叠式”,后者叫做它的“基式”。但有一部分重叠结构并不是由一个词重叠而成,而是由两个词重叠而成,例如“白胖胖”、“歪歪倒倒”等,他们不是由“白胖”和“歪倒”直接重叠而成的,因而,这些重叠结构实际上是没有基式的。对这两类重叠结构进行定量分析是本文的第二个内容。汉语中常见的是动词和形容词的重叠形式,除此之外,其他类词有没有重叠形式,重叠的能力如何,这是本文的第三个内容。

      本文调查的重叠结构来自两个方面:(1 )“语料库”中抽出全部没有切分的重叠形式;(2)《现汉》中收录的全部重叠形式。 下表是各类重叠结构在“语料库”和《现汉》中出现的次数。表中的“全部”包括:(1)只在“语料库”中出现的重叠结构数量;(2)只在《现汉》中出现的数量;(3)“语料库”和《现汉》都出现的数量。

      表1 各类重叠结构数量表

      

       ABB AABAABB A里AB AAA 合计

       语料库 326 64 483 10 9926

       《现汉》206 33 86

      1 0326

       全部431 90 510 10 9

      1050

      我们统计到的重叠结构总数为1050个,其中语料中使用了926个,《现汉》中收录了326个,有很大一部分没有被收入《现汉》中, 也有一部分《现汉》收录的重叠结构在语料中没有出现。 本文主要分析这1050个重叠结构。

      二 重叠结构的产生

      重叠结构的产生方式可以从两个角度来考虑:(1 )重叠结构各个因素是如何重叠的;(2)重叠结构是由什么因素重叠而成的。 下面作具体分析。

       2.1全部重叠式和部分重叠式

      从重叠结构的内部因素如何叠用的角度来看,重叠结构可以分为两种情况:结构中每个因素都重叠,例如“讨论讨论”、“干干净净”等;结构中有部分因素重叠,例如“黑压压”、“白胖胖”、“糊里糊涂”、“心心相印”等,我们把这两种结构分别叫做全部重叠结构和部分重叠结构。

      全部重叠结构包括:AA式、AABB式、ABAB式和AAA式四种; 部分重叠结构包括:AAB式、ABB式和A里AB式三种。从数量和能产性来看, 全部重叠结构在汉语重叠结构中占绝对优势,因为AA式、AABB式和ABAB式都是相当开放的,大多数形容词和动词都可以有这样的重叠方式,这方面的研究已经有很多成果,本文不打算讨论。

      2.2有基式的重叠结构和无基式的重叠结构

      从重叠结构各因素的来源看,重叠结构的产生方式有两种:大多数重叠结构是单个词通过不同的重叠方式重叠而成的,例如“看”和“看看”、“高”和“高高”、“大方”和“大大方方”等,就是说重叠结构“大大方方”是由一个基式“大方”通过全部重叠的方式产生的;另一类重叠结构并不是一个词重叠而成的,例如“跌跌撞撞”不是“跌撞”直接重叠而成的,是由“跌”和“撞”两个词重叠而成的,这类结构实际上没有一个基式,它们常常由两个语素直接重叠而成。我们把这两类重叠结构分别叫做“有基式的重叠结构”和“无基式的重叠结构”。

      2.2.1重叠结构的内部构造

      在分析有基式的重叠结构和无基式的重叠结构之前,我们要分析的是各类重叠结构分别是由哪些成分通过什么方法产生的,也就是它们的内部构造。比如“冷清清”、“乱糟糟”、“姨奶奶”和“红彤彤”都是ABB式,但是,“冷清清”是由一个词“冷清”部分重叠而成, “乱糟糟”是由两个词“乱”和“糟”部分重叠而成,“姨奶奶”是由“姨”和重叠词“奶奶”构成,也属于部分重叠形式,“红彤彤”是由“红”加上生动形式“彤彤”构成,可见,他们的产生还是比较复杂的。我们对表1中的1050个重叠结构进行归类和分析, 分析结果如下(各小类的数量参见表3):

相关文章: