现代汉语类词缀的定量与定性研究

作 者:

作者简介:
曾立英,女,现为中央民族大学国际教育学院教师,2006年毕业于北京大学中文系,获博士学位,2008年7月于北京大学计算语言学研究所博士后出站,主要研究领域为词汇学、句法学、对外汉语教学和计算语言学(中央民族大学国际教育学院 100081)。

原文出处:
世界汉语教学

内容提要:

本文基于《现代汉语语法信息词典》8万词的词库,对类词缀的构词频率进行了统计和分析,同时也对类词缀的能产性、定位性以及虚化程度等构词特征进行了探讨,并区分了类词缀与部件词。我们采用定量研究和定性研究相结合的方法,对每一个类词缀从读音、义项、同形、词频、构词方式等方面进行全方位的考察,共确立了现代汉语的单音节类前缀23个、类后缀53个。


期刊代号:H1
分类名称:语言文字学
复印期号:2009 年 03 期

关 键 词:

字号:

      一、引言

      随着越来越多的新词语的出现,如“先导型、瑜伽热、舒适度、上班族、里程碑式”等,引导我们思索现代汉语构词的规律。像“型、热、度、族、式”这一类的语素构词很有规律,构成的词数量也多,构成的词语不可能都收入词典,比如1998年和2000年《人民日报》语料中有340个“XX型”的词语出现,如“技能型、搬运型、板块型、闭合型、便捷型、标准型、参与型、成年型、城郊型”等等。为了解释现代汉语构词法中的这一类现象,我们有必要引入语言学中的“类词缀”的概念。

      关于“类词缀”的定义、性质、范围和分类的探讨,语言学界主要有赵元任(1968)、吕叔湘(1979)、汤廷池(1992)、陈光磊(1994)、马庆株(1995)、朱亚军(2001)、富丽(2001)、王洪君、富丽(2005)、冯敏萱等(2006)等。在汉语构词法著作和论文中,对于词缀或类词缀,一般只是列举性的说明,少有穷尽性的研究,本文基于北京大学计算语言学研究所的《现代汉语语法信息词典》8万词的词库,对每一个词的构成进行分析,穷尽性地考察类词缀。

      中文信息处理学界对于“词缀”和“类词缀”,主要是从应用的角度去制订分词规则和词表,如刘源等(1994)、中央研究院的中文词知识库小组(1996)、吴赣(1998)、孙茂松等(2001)都谈到了对“词缀”“接头词”“接尾词”的处理,但是各家所列的类词缀的范围都不一致,需要进一步探讨类词缀的确立标准,以期更加深入地了解其构词规律。

      二、类词缀的定量研究

      关于类词缀的范围,各家确立的内容都不一样。如吕叔湘(1979)针对“汉语里地道的语缀不很多”的现象,提出了“类语缀”一说,并列举了“可—、好—、难—、准—、类—、亚—、次—、超—”等18个类前缀和“—员、—家、—人、—民、—界、—物、—品、—度”等23个类后缀。汤廷池(1992)则列出了“阿、老、小、打、见、可、难、好、而、以、第、初、不、非、反”等15个词首以及“人、师、员、士、生、手、派、性、度”等48个词尾。朱亚军(2001)所列的词缀,包括前缀22个,指“阿、半、本、不、超、初、打、单、第、多、反、泛、非、分、副、该、可、见、老、所、总、准”;后缀39个,指“巴、处、达、得、度、儿、法、分子、鬼、汉、化、件、家、匠、角、界、具、率、论、迷、派、品、气、然、热、师、士、式、手、坛、腾、头、性、学、员、者、子、族、主义”。

      刘源等(1994)有“完全虚化的前后加成分”“部分虚化的前后加成分”以及“接头词和接尾词、不虚化或基本不虚化”之别,采取了一种分层处理的方式,共列了15个前加成分和22个接头词、32个后加成分和98个接尾词。台湾中研院则列举出了9个前缀和41个接头词、20个后缀和441个接尾词。《现代汉语语法信息词典》(以下简称《语法信息词典》)收录了前接成分11个,后接成分43个,前缀包括“阿、超、非、过、老、微、伪、小、以、之、准”等11个,后缀包括“赛、办、式、边、长(zhǎng)、场、单、度、堆、儿、方、感、观、乎、化、机、计、家A、家B、界、老、狂、率、论、们、面、品、器、然、生、手、体、头、型、性、学、炎、业、仪、员、者、制、子”等43个。

      本文对于类词缀的研究是建立在定量研究的基础上,定量研究选取的词库是北京大学计算语言学研究所开发的《现代汉语语法信息词典》数据库。《语法信息词典》1998年第1版收录了现代汉语词语5万多条,2003年第2版增加至7.3万余条(参见俞士汶等,2003),到目前增加至8万条。该词典采用关系数据库的文件格式。本文就是基于这个丰富的词库,并结合1998年全年《人民日报》语料库,对类词缀首先进行定量研究;所以本文对类词缀的研究不是凭经验、凭语感的选取,而是基于对语料库的统计和分析而得出的。

      按照王洪君、富丽(2005),在体词性的范围内,词缀的核心搭配范围在单音字,延展到了一部分双音词;类词缀与单音字的搭配已不太自由,其核心搭配已转移到了双音词,并延展到了多音节词和类词。于是我们选取了词库中的三字词来穷尽性的调查类词缀。本文首先对《语法信息词典》80685个词进行切分分析,切分过程中有一条原则就是对二字词不切分,发现有很多三字词可以切分,我们于是在80685词中抽取出13778个三字词,并抽取出《人民日报》1998年上半年语料库中的17848个三字词作为参照。

      我们考察三字词中的类后缀的工作流程如下:对8万词库中的13778个三字词的位于词末的语素进行再抽取,共有1539个字,把这1539个单字在数据库中按照构词频率排列,词频高的前50位分别是:子、性、机、器、学、人、员、化、会、品、者、儿、率、法、费、家、病、部、表、剂、线、权、车、力、量、站、队、式、室、花、片、物、纸、生、业、体、石、头、词、面、期、书、场、油、图、素、炎、点、虫、院,这前50个字的构词频率都在53次以上。词频低的后50位分别是:妻、浅、签、千、传、汽、喘、棋、脐、喷、凄、抢、谱、浦、泼、坪、频、篇、屁、春、皖、戚、卿、染、犬、醛、丑、趣、渠、黢、屈、出、欠、囚、川、沁、勤、储、怯、俏、瞧、黜、蟆、跑、除、曼、朦、氓、闷、搭。词频低的后50位根本没有可能成为类词缀,词频高的前50位有潜能成为类词缀,最后的定性还要结合别的因素加以考虑,后文将加以论述。

相关文章: