语言监测是一项以语言学和应用语言学以及相关理论为指导、信息处理技术为主要手段、田野调查为基本方法的多学科学者参与的大规模的社会性语言工程,目的是及时反映语言生活状况,描述语言使用实态,以便对语言这种资源进行更好的开发和利用,实现保护语言生态、创建和谐语言生活的目标。中国的语言监测工程实施是从2005年开始的,迄今为止已经走过了十年。 一 机构和资源 中国的语言监测是在政府的支持和指导下开展工作的。2004年在教育部语言文字信息管理司的指导下,成立了国家语言资源监测与研究中心,教育部语信司分别与北京语言大学、中国传媒大学、华中师范大学、厦门大学、中央民族大学、暨南大学共建了平面媒体、有声媒体、网络媒体、教育教材、少数民族语言、海外华语六个分中心①。语言监测对象涵盖了最能代表大众语感的大众媒体和对一个民族语言发展影响最大的基础教育,既包括国家通用语言,也包括少数民族语言。 语言监测工作主要是在国家语言监测语料库上展开。国家语言监测语料库包括三个子库:通用语媒体语料库、教育教材语料库和少数民族语言语料库。教育教材语料库已搜集了1900万字的教材语料;少数民族语料目前包含藏语、维吾尔语、哈萨克语、柯尔克孜语、蒙古语等语种,各语种的语料以每年2亿字词的规模增长;通用语媒体语料库分为平面媒体、有声媒体、网络媒体三个子库,每年以10亿字次的规模滚动建设,根据流通度来选择那些具有典型性和代表性的不同媒体中的语料。这些具有动态、流通特性的语料,记录了大众传媒的语言实态,反映了语言生活,是实施语言监测各项任务的基础资源。 这些反映语言生活的语言资源是语言监测的基础,是语言监测的生命所在。正是在国家语言监测语料库的基础上,我们完成了一个又一个语言监测项目,获得了语言监测的成果。 二 实践与成果 在大规模语料库的基础上,我们做了一系列语言使用实态的调查,包括通用语媒体用字用语调查、新词语调查、字母词调查、网络新媒体语言调查、教材语言调查、少数民族语言调查,获得了很多宝贵的语言数据,发现了一些语言使用的规律。 (一)通用语媒体用字用语调查 2005年开始,每年都在10亿字次②的通用语媒体语料库上开展大规模的年度用字用语调查。尽管每年社会生活都发生很大的变化,但汉字使用表现了很强的规律性:每年大众媒体上使用的汉字在1万个左右;覆盖语料80%的汉字数量在600左右,覆盖语料90%的在1000以内,覆盖语料99%的在2400左右。这就给出了常用汉字不同等级的数量标准。汉语用词也表现出很强的规律性:每年大众媒体上使用的词语数量是跟语料规模成正相关关系的,语料规模越大,所用词语越多;10亿字次规模的语料大约使用词语220万左右;覆盖语料80%的词语数量在4700左右,覆盖语料90%的在13000左右。这也给出了汉语常用词语不同等级的数量标准。覆盖率达到90%,汉语最常用的字词数量可以概括为一个四字格——“千字万词”。 随着社会的变化,不同年度所使用的字词也会发生变化,这可以从共用、独用角度看出。从汉字来看,各年度共用汉字都在65%以上,而各年度独用汉字基本都不到5%。如果用一个字来概括说明各年度汉字的使用状况,那就是“稳”。跟汉字相比,词语使用情况发生了相当大的变化。各年度共用词都不到10%,而独用词都占将近一半。相邻的两年来比较,共用词占30%左右,独用词占70%左右。如果也用一个字来概括说明各年度词语的使用状况,那就是“变”。看来,字是以稳为主,稳中有变,稳是主流;词是以变为主,变中有稳,变是主流。那么比词更大的单位句子呢,显然是变数更大,而比字更基本的单位——音节,要比字更稳定。这也证明了一个规律:语言单位越小,其稳固性越强,种数越少;语言单位愈大,其稳固性越差,种数越多。语言事实印证了洪堡特和乔姆斯基的语言观:语言以有限的形式实现了无限的表达。 在通用语媒体语料库每年10亿字次规模语料得到的200多万词种中,出现最多的是人名,几乎占全部词语的三分之一,其次是机构名、地名、其他专名以及时间、数字表达式等;而普通词语,即语文词,仅占10%。但这些词语使用的频率是不一样的。普通词使用次数占91%,而人名、地名仅各占2%。如果把普通词以外的词语都归结为“命名实体”,那么“普通词语”和“命名实体”在词种分布和词次分布上有着巨大反差。占词种10%的普通词语覆盖了语料的91%,而占词种90%的“命名实体”仅覆盖语料的9%。这说明,普通词语的使用频度要远远高于各种命名实体。这就是语言使用的一种实际状态。 2013年6月5日,国务院正式公布《通用规范汉字表》,调查通用规范汉字的使用情况成为当年的一项监测任务。我们将2013年度媒体所使用的11408个汉字与《通用规范汉字表》进行比对,获得通用规范汉字在媒体中的使用分布。调查发现,8105个规范汉字,在10亿字次的媒体语料中共出现7478个,这些规范汉字的使用频率总和覆盖了全部语料的99.992%。从通用规范汉字在语料中的分布情况来看,《通用规范汉字表》的分级、定量符合汉字使用规律。627个没有在媒体语料中使用的规范汉字,有217个是新收录的类推简化字,不可能出现在当年的语料中,其余的多是文言、地名、姓名、科技和方言用字。此项调查为社会用字规范提供了参考,也为通用规范汉字表随时间的动态微调提供了数据支持。③ (二)新词语调查 年度新词语调查是从2006年开始,已做到2014年。其间共提取出5264个年度新词语。④这些新词语记录下了社会发展的历史进程,从中也可以看出近些年来新词语产生、发展以及消亡的规律。