语料库间词汇差异的统计方法研究

作 者:

作者简介:

原文出处:
现代外语

内容提要:


期刊代号:H1
分类名称:语言文字学
复印期号:2011 年 01 期

关 键 词:

字号:

      从理论和具体实验都可以看出,对于语料库之间常用词汇的差异比较,与卡方检验和对数似然率检验相比,秩和检验较为客观、准确。其深层次的原因可能是:

      首先,语料中某个词的绝对频次是没有意义的,只有通过比较才能显示出多用和少用。第二,即使某词汇的绝对频次有意义,但这个频次数量分布并不符合正态分布函数,当检验统计量是基于这些绝对频次数据时,概率理论通常也难以给出理想的推断。基于秩的统计量的概率理论相对比较简单,而且在很多情形下并不依赖于分布。实验表明,语料库中一些极其常用的词汇,如the、of等,其分布比较接近于正态分布,所以对这些词汇,各种检验方法的效果都比较理想;但是大多数不那么常用的词汇,其分布严重偏离正态分布,难以符合很多统计方法的要求,统计效果不好。卡方检验和对数似然率检验比较简单易用,对于语料库之间大多数常用词汇特征的对比分析也比较有效,但是在使用中要注意以下几点:

      首先,尽可能使用较高一级的显著性水平,并且要知道实际检验结果并未达到如此高的显著性。其次,对统计量的解释,尤其是较低的具有显著水平的统计量的解释需要谨慎。最后,即使存在显著性差异,也要注意,这种差异是否是由于语料库中某一个或少数几个文本的词汇过度集中所造成,因为这类文本不一定能够代表整个语料库所代表的文体。为了得到更为精细和准确的统计结果,建议对语料库之间词汇特征差异的比较尽可能采用秩和检验。

相关文章: