异形词规范的三个基本性原则

——评《第一批异形词整理表(草案)》

作 者:

作者简介:
苏新春,厦门大学 中文系,福建 厦门 361005 苏新春(1953-),男,江西南昌人,厦门大学中文系教授。

原文出处:
厦门大学学报:哲社版

内容提要:

运用词汇计量的方法,对《第一批异形词整理表(草案)》进行了全面的词次、词频统计,针对异形词的入选范围、正体词与异形词的确定标准、异形词规范的松紧度以及处在语言动态变化中的异形词所应采取的策略等问题进行了论述。归纳出异形词规范应遵循三条原则:俗成性、实用性、指导性。


期刊代号:H1
分类名称:语言文字学
复印期号:2002 年 07 期

字号:

      中图分类号:H042 文献标识码:A 文章编号:0438-0460 (2002)02-0025-08

      对异形词的处理是汉语词汇规范的一个重要内容,不少学者就此作过讨论。(注:据《现代汉语词汇规范论文索引》(“全国词汇规范问题学术研讨会”会议材料,2001·厦门,苏新春、余桂林编)初步收集,1980年以来学术界共发表异形词与异体词方面的论文30多篇。)国家语委2001年7月31 日在《中国教育报》上公布了第一批异形词整理表(草案)。这是到目前为止,异形词规范工作作得最深入、最正规的初步成果。笔者结合正在从事的词汇计量工作,对《草案》所入选的429组异形词进行了词次和词频的调查,发现其中存在一些很值得进一步思考的问题。本文以认同词表中所有的异形词为前提,探讨什么样性质的异形词需要规范?如何确定正体与异形的身份?异形词规范的松紧度如何把握?对处在语言动态变化中的异形词应采取怎样的策略?用于调查与验证的语料是2.5亿字正式发表的现代汉语材料。 (注:本文所用语料库由清华大学孙茂松先生提供,特此表示感谢。2.5亿字的语料分布:5000万字为20世纪30至90年代的文学作品语言;2亿字为20世纪90 年代的新闻语言;270万字为科普作品语言。)

      一、对《草案》的词频统计与分析

      《草案》中异形词的几组统计数据。

      1.429组异形词的构成情况

      两词一组的有429组,三词一组的有31组,四词一组的有4组,共有词语893词。一组中的第1个词为正体词,对后面的几个词本文分别以异形词A、异形词B、异形词C称之。

      2.893个异形词在2.2亿字语料中的词次调查

      一个词的词次数在5000次以上的有22个词,在总数893 个异形词中占2.5%,“计划”一词最高,达60809次。未见词例的词语有132个, 在所有异形词中占14.8%。这些词语已显“废用”词语的性质。这里反映的是一个词的“绝对词次数”,它反映了一个词在实际语言中的流通程度。

      3.429组异形词中的首词(即正体词)的相对词频

      我们把893个词语出现的词次按组排列, 由此来看每个词在本组所有语例中所占的比例,即“相对词频”。相对词频是本文的一个重要观察点,因为正体词与异形词关系的确立都是相互以对方为参照点的。绝对词次数能清楚反映一个个词语的常用度,却不能清楚地反映出同组词相互之间的关系。如“人材”是异形词A,有220个词次,但正体词“人才”却有34982个词次,二者之间的比例是0.6%比99.4%,因此,确立后者为正体词是确凿无疑的。如果单看绝对词次,“人材”并不低,因为在429组中,词次数在220以下的正体词达189个。

      正体词在本组内所占比例愈高说明优势愈明显。在99%-100 %的有154个词,占总数的1/3,其中为100%的达101个。 这里把正体词按相对词频的高低分出11级,具体资料见表1。

      表1 正体词的相对词频

      分级正体词正体词的该级别的正体词在

      的数量相对词频429组中所占比例

       11 154

      99-100%35.9%

       10 120

      90-98% 28.0%

       955

      80-89% 12.8%

       838

      70-79% 8.9%

       721

      60-69% 4.9%

       611

      50-59% 2.6%

       5940-49% 2.1%

       4830-39% 1.9%

       3620-29% 1.4%

       2110-19% 0.2%

       160-9%

      1.4%

       429组←总数→ 100%

      从“11”到“1”显示正体词的相对词频由高到低的排列。按百分比应是10级,这里分的第“11”级是99%-100%之间的数字元,目的是显示其特殊性。

      4.429组异形词中的第二词(即异形词A)的相对词频

      相对词频愈低,说明这些异形词的使用频率愈低,规范的可行性愈大。但两头的数字可能会显示出一些问题。太低,才1%或2%-3%, 甚至为零,说明这部分词语的规范价值值得考虑;太高, 超过70 %-80%,说明它们仍有很大的使用面,规范起来难度相当大。异形词A 的相对词频在50%以上的为27例,低于1%的有159例,占429组的37.1%。其中为零的是101个词。异形词A的相对词频为零,与正体词的相对词频为100%的数字相对应。

      5.429组异形词中的第三词(异形词B)的相对词频

      异形词B有31个,其中25个没有一个例句,说明其无流通量; 有一个词却高达70%多。

      6.429组异形词中的第四词(异形词C)的相对词频

      异形词C有4个,其中1个的绝对词次数为2,另3个词语为零。

      以上统计数据显示,429组异形词的规范意见基本上是正确的, 大多数正体词与异形词的关系都能得到词次与词频的支持。一组异形词中的首词(即正体词)的相对词频在50%以上的达93.1%,这就保证了《草案》的合理性、科学性。《草案》“说明”中提出了异形词整理的三条原则,即“文字规范原则”、“通用性原则”、“统筹兼顾原则”。词表中不少异形词的处理体现了优先执行通用性原则的特点。如曾有人主张以文字简省的为正体,而这里却立“轱辘[,129]”为正体词,以“轱轳[,6]”为异形词。(注:词语后面的数字反映的是本文在2.5亿字的封闭语料库中的统计结果。小写数字即该词的绝对词次数,小写百分数为相对词频数。下同。)也曾有人认为异形词的整理当实施偏旁类推的作法,即具有相当偏旁的词都作统一的处理,而《草案》却在“保姆[,1660]”“保母[,6]”“褓母[,0]”“褓姆[,2]”中,以偏旁未统一的“保姆”为正体。

相关文章: