国家语委“通用语料库·核心库”的词表提取及词汇构成分析

作 者:

作者简介:
苏新春 厦门大学中文系。(福建 厦门 361005)

原文出处:
江苏大学学报:社科版

内容提要:

在真实语料中提取词表面临着许多技术与理论上的难点与困难,但它又有着特殊的价值。“通用语料库”是国家语委组织研制的大型语料库,基本反映了现代汉语的语言面貌,完成对它的词表提取,其过程、做法及词表结果,都有着重要意义。机器分词时会遇到分词的正确性、加工精度的可容性、机器分词的强制性、机器分词的局限性等问题。源于真实语料的词表清楚反映出断代词汇由语言词和言语词两个层面构成,两个层面的词语之间有着互渗作用。源于真实语料的词表存在着书面语与口语的差异,不规范现象也较普遍存在,在词语的普遍性上与断代词汇有着相当的距离。


期刊代号:H1
分类名称:语言文字学
复印期号:2007 年 07 期

字号:

      一、从真实语料中提取词表的意义与价值

      说到词表,人们就会想到词典的词目,其实,词典的词目与来自语言生活中的词表是很不一样的。词典的词目重在继承,多来源于前面一代代的辞书,更重要的是它看重的是“考释性”,愈是人们不懂,需要查考的,愈是它的收录对象,而于“见字明义”的词则是不屑一顾的。因此,从词典的词目来看一个时代的词汇面貌也就打上了许多的折扣。

      人们开始重视从真实语言材料中来提取词表,而对断代词汇整体面貌的了解则是人们孜孜以求的目标。人们作过许多尝试,从专书研究时代起,就有过通过选取代表作品、代表作家来窥探断代语言面貌的做法。到了计算机语料库时代,从众多的作品、海量的语料中来概括断代语言面貌则成为一种普遍的做法。从百万字级容量的语料库,直至千万级、亿级,甚至若干G级的都出现了,仅《人民日报》从创刊起至当下,容量就逾十亿字。这时新的问题又出来了,人们发现语料库并不是愈大愈好,超大语料库所反映的语言规律往往与规模适中的语料库是相当的,何况有时在超大语料库中有价值的东西还会被稀释。这样,规模适中、能综合反映断代语言整体面貌的语料库也就成为人们首要的追求目标。在汉语界,国家语委主持研制的“通用语料库”与台湾中研院研制的“平衡语料库”,就是这方面的两个最有代表性的成果,“通用”与“平衡”,所反映的意思一样,就是这个语料库所纳入的语言材料是考虑到了语言状况的方方面面,具有全面反映断代语言面貌的功能。

      “通用语料库”在研制前言中明确指出:它的目的是“选材要有足够的时间跨度,语料应抽样合理、分布均匀、比例适当,科学地反映现代汉语全貌”。“选材工作自1992年底开始,按照通用性、描述性、实用性等原则系统地抽样选择了1919~1992年的现代汉语语言材料7000万字,由人文与社会科学、自然科学及综合三个大类约40个小类组成。”

      “通用语料库”在建库的同时,还研制了一个核心语料库:“为加快建库工作,使现代汉语语料库尽快发挥社会效益,首先建立了核心语料库,以适应词典编纂、办公自动化、中文信息处理等近期需要。核心语料库的字数为2000万字,由7000万语料中筛选出来。由于《选材原则》是经几次专家论证确定的,核心语料库的语料筛选工作,在语料分科、年限划分、比例、字数等方面基本上仍依照《选材原则》进行,只是结合核心语料库的用途特点,在语料筛选上突出1977年以后的新语料,注意选用内容通俗、通用性强的普及性语料,因而不同年限和门类的语料比例和字数均有小的调整。”[1]

      由上可知,核心语料库的性质、功用与通用语料库基本保持着一致。通过它来观察现代汉语面貌是符合研制者目的的。在目前的情况下,要了解现代汉语词汇面貌,由核心库入手来描写、提取、概括,是一个稳妥的做法,要明显优于专书语料库、专类语料库或词典的词目库。本文就是尝试从核心语料库中提取词表时的所遇所思,所议所论。

      二、从真实语料中提取词表的困难与思考

      语言库语言学的思想正在日益影响着语言研究者的认识和行为。语言研究愈来愈离不开语料库的开发、建设与利用。大规模语料库的建立与开发利用正成为我国语言研究者日益认同的一项必做的基础工作,但里面存在着许多理论和实践的问题需要我们去解决。尽管人们已经认识到将对真实语料的分词单位进行总集的词表,词表与词汇全貌之间,有着某种直接的类推逻辑关系,但毕竟从大规模语料提取词表,与借用词典的词目表有着很不相同的意义,做法也完全不同。它所做的是从最原始的“矿料”中提取成品,中间要经历的复杂与繁难并不是“水到渠成”。从真实语料到最终词表的形成,中间要经历三个阶段,所展现出来的词语无论在性质,还是在构成上,都有着很大的不同。

      第一个阶段:语言的真实存在状态,它蕴含着词与语,词与语的具体灵活的运用形式,其状态是语言词与言语词的共存混存。

      第二个阶段:将汉民族在语言运用时下意识中能清楚运用的词要一一外化地、明晰地切分开来。由于语料的庞大,这项工作不得不由分词标注软件来完成。即使是人,要将潜藏的词外显出来都不易,所以才有了在语言研究者中普遍存在的典型词好分,非典型词难分,例子好办,穷尽难成的局面,何况是软件,能否将人赋予的那些知识正确运用,都是一大难题。

      第三个阶段:对软件的分词标注结果进行人工干预。现有的机器分词正确率在最优的状态下已经能达到百分之九十几,但这要得到最合适语料的配合。在广泛采集、多种多样的语料面前,其正确率能否继续保持这个数率是值得怀疑的。至于要将静态的、核心的、要素性的语言词与动态的、变化组合性的言语词区分开来,这在理论上似乎较为清楚,而要在实践上,“全面落实到词”,其难度是不言而喻的。“核心库”在投入使用前经过多次人工校对,但由于校对精度、校对标准等,仍在不同程度上存在讹误,多少仍会影响着分词结果,影响着统计数据。

      因此,在利用核心语料库的材料来提取词表时,仍会碰到许多问题,既有理论上的,也有操作层面的,既有对语料的思考,也有对统计结果的甄别。下面是对若干问题的思考。

相关文章: