自上个世纪80年代以来,汉语自动分词技术经历了从分词规范到“规范+词表”,再到带标注语料库的长足发展。目前,带标注语料库常常用来作为各种分词系统训练和测试的材料,也同时作为测评各系统的标准,因而被称为“金本位”[1]。虽然带标注语料库的出现弥补了规范和词表的很多不足,可现阶段带标注语料库的标注质量还很不理想,严重影响着分词系统的结果和后续的工作。分词的一致性一直是衡量带标注语料库质量的一个重要标准,由于不同的人对词有不同的认识,很多经过人工校对的语料还存在着大量的分词不一致问题。 一、分词不一致 (一)分词一致性的定义 分词的一致性可以分为一致性1和一致性2。一致性1:在保持语义同一性的前提下,一个结构体在语料库中的分合是否始终一致(例如:“猪肉”是否始终保持一个整体,或者始终分开);一致性2:与某个结构体具有相同结构类型的其他一切结构体在语料库中的分合是否与该结构体始终一致[2]。我们将分词的一致性概括为:“在相同语境下,同一字串以及与该字串具有相同结构类型的所有字串在语料库中的切分应该始终一致。”反之,就是分词不一致。 (二)相同结构的分词不一致 我们通过考察1998年1月的《人民日报》标注语料就发现了1034个分词不一致词例,共出现分词不一致14254次。可见,即使经过多次的人工校对,分词不一致现象在语料中仍广泛存在。不仅如此,除了单个字段易与本身产生分词不一致,语料中还有可能出现如例句一样的情况 (1)我/r喜欢/v吃/v猪肉/n,/w爸爸/n爱/v吃/v牛/n肉/n。/w (2)猪肉/n价格/n猛涨/v,/w而/c牛/n肉/n价格/n开始/v回落/v。/w (3)兔/n肉/n很/d有/v营养/n。/w (4)我/r没/d吃过/v猫肉/n。/w 简单的四句话里面有“猪肉”“牛肉”“兔肉”和“猫肉”,每个字段在语料中前后都是一致的,利用传统的相同字段在语料前后切分一致性检测是无法发现其中的分词不一致现象的。因为“猪肉”“牛肉”在语料中始终保持了一致性,而“兔肉”和“猫肉”只出现了一次。但是,从整个结构类型的高度来看,这同属一个结构(动物名+“肉”)的几个字段切分形式却不同,严重影响了语料的质量。同一结构的不同字段由于语言使用频率、语言习惯等的原因,稳定性上是有差异的,但是我们认为即使这些词存在着诸多差异,也不能因此而否定了其内部结构和语义指向上存在的一致性。分词不一致的统一不仅是每个字段的统一,更要处理好相同结构类型的不同字段的切分统一问题。 二、分词不一致产生的根源——心理词库的差异 一个大型分词语料库的建设是一项语言工程,分词的校对工作需要多个校对者同时进行。因此分词的不一致不仅体现在不同校对者对相同字段的不同处理,同一校对者在不同时间对相同字段的不同认识,还体现在人们对于相同结构的不同字段理解不同,而后者往往更容易被人忽略。有学者将人工造成的分词不一致归结为校对者的校对错误,我们认为校对的误差是可以通过二校等方式改正和避免的,而由于人对词的不同理解造成的分词不一致不是校对错误,并且用目前的手段也无法避免。算法缺陷、资源限制、规范的不合理、校对人员的差异共同造成了语料中大量存在分词不一致现象。其中,规范的不合理影响了人对分词单位的判断,人对词的概念的模糊使得“规范”的某些规定模棱两可,缺乏可操作性。究其根源还是人的心理词库的差异。 (一)词库与词法 语言使用者的词汇能力包括词库和词法两个部分:词库(lexicon)是语言中具有特异性(idiosyncrasy)的词汇单位的总体,存储在语言使用者的头脑中,所以又称心理词库。词库中的项目都是语言中意义不可预测(unpredictable)的成分,具有不规则性,表现出形式与意义之间的任意性的或非常规的联系,所以需要以清单方式一个一个地存储,需要时就可以直接从这个清单中提取。词法(molphology)是关于一个语言中可以接受或可能出现的复杂的词的内部结构的知识,或者说是生成语言中可能的词的规则,是一套规则系统[3]。 根据这样的定义,如“巧克力”“三心二意”这样充分词汇化的词是需要我们记忆的,因而存储在我们的心理词库当中;如“玻璃杯”“文化界”这样的词我们可以提取存储在心理词库中的“玻璃”“杯”“文化”“界”,用一定的规则将这些词合成为新的词汇。这些规则就是词法,而构成的新的词我们称为词法词,存储在人的心理词库中的词我们称为词库词。 在这里我们要明确进入词库的主体成分是词,还包括大于词的习语和小于词的词缀。因此存储于词库中的成分不一定都是词,相反不在词库中存储的成分并不等于就不是词,只是不需要以清单的方式存储。为了表述方便,我们采用词库词和词法词来代替存储于词库的和由词法构成的成分,这与传统的词的概念有很大差异。 不同人的心理词库是有差异的,有些词可能存在于某些人的心理词库中,而对于其他人来说可能就没有,或者可能是由词法在线生成。 (二)心理词库的差异产生了分词不一致