1.引言 在自然语言处理领域,高质量有标语料的作用越来越重要。它不仅作为语言模型的训练语料,也充当评价各类语言模型和实用工具的测试数据,同时,这些语料也是理论语言学工作者从中挖掘语言学规律的重要资源。然而,手工校对语料的代价非常昂贵,普通研究单位难以承受。一方面语料库对于语言信息处理和语言研究具有如此重要的作用,并且人们对语料库规模和质量的要求日益提高;另一方面语料库加工的高投入又使人望而却步。如何利用现有的语言资源,借助当今计算机领域,特别是机器学习领域的相关技术,利用尽可能少的手工标注和校对,生产出与手工校对语料质量相当的语料,无疑是计算语言学以及语料库语言学领域极有价值的重要研究课题。 当前,语料库加工表现出质量要求高、规模海量化的特点。随着统计语言模型的繁荣,人们对作为模型训练和测试数据的语料库的质量要求也不断提高。语料中任何一点点微小的质量问题,都会对语言模型的训练和测试精度产生很大影响(Sun,et al.2005)。自然语言处理的经验告诉我们,经过大规模语料训练的模型,性能要远远高于同质量小规模语料训练的模型。因为随着语料库的增大,各种语言成分的分布更加稳定,数据稀疏问题也得到适度缓解;包含在语料库中标注错误的绝对数量虽然也会增多,但是错误类型的分布会随之多样化,因而对模型训练的影响会逐渐变小。互联网的飞速发展为文本语料的收集提供了极大的便利,这也促进了超大规模语料库的建设。 正因为高质量、大规模的语料库在自然语言处理中有极其重要的作用,国家重点基础研究发展计划“973”课题“文本内容理解的数据基础”把“超大规模语料库加工”作为其中的一项子任务,旨在探索超大规模语料加工新技术,以现有的手工标注语料作为样例语料,将《现代汉语语法信息词典》(俞士汶等2003)作为重要语言资源,借助当今机器学习的方法,在自动加工的基础上辅以尽可能少的必要的手工校对,最终达到与手工校对语料质量相当的标注水平。这里冠以“超大规模”,是与现有的《人民日报》1998年半年语料的规模相比较而言的。超大规模语料库要比《人民日报》1998年半年语料高1-2个数量级。作为首期目标,我们选定对2001-2004四年的《人民日报》进行处理,今后还将不断扩大语料加工的规模。 2.国内外研究现状 与计算语言学和语料库语言学的主流研究课题相比,语料校对的研究相对薄弱,相关内容的文献较少,并且主要集中在对样例语料的纠错处理上。它们把整个校对的过程分为错误检测和自动修改两部分(Dickinson 2005)。Abney(1999)等人利用boosting的方法研究语料中的错误检测,方法是给每个训练实例计算出一个权重,那些难以分类的实例得到的权重很大。由于标注者标错的例子一般是难以分类的,据此把那些权重大的例子检测出来作为错误例子的候选。 一些研究者把错误检测当作异常检测(anomaly detection)的问题(Eskin 2000)。他们假设语料是由两种分布构成的混合模型,一种是主要分布(majority distribution),另一种是异常分布(anomalous distribution)。主要分布是某种结构分布,而异常分布往往是随机分布。错误元素是由随机分布生成的。对于语料中的每一个元素,分别计算出它在混合模型中主要分布和异常分布这两种情况下的似然值,如果后者的似然值足够大,便被检测为错误。 Nakagawa(2002)利用支持向量机进行错误检测,他所持的观点是,那些违反了语料一致性的例外元素极有可能是错误的元素。 Dickinson和Meurers(2003)则使用变体n元组(variation n-gram)来检测语料中的词性错误。他定义:一个单词如果在语料中的出现超过一次,并标注以不同的词性标记,则该词被称作变体。语料中的变体是由两种原因造成的:一种是歧义,即一个词本来就有多个词性,并且这些词性均出现在语料中;另一种是错误,即把本该标注成A词性的,错标为B词性。他们把检测错误的焦点放在词语的变体上,通过在语料中搜索变体n元组来完成上述任务。变体n元组是指,语料中由连续n个词语构成的n元组中,至少包含一个词语为变体。最直观的想法就是,一个变体所在的两个上下文越相似,则该变体就越可能是错误标注,并且n越大,变体包含错误标注的可能性就越大。 相对于错误检测,关于错误的修改研究得不多。Dickinson(2006)通过利用所谓复杂歧义标记(complex ambiguity tag)来细化兼类词语的标注,例如,英文ago含有歧义类IN/RB,利用普通的标注以及利用复杂歧义标记的标注分别为: ago/RB ago/ 通过复杂歧义标记的标注,不仅表明当前该词性是RB,而且告诉我们当前词语是一个由IN和RB构成的兼类词,目前被标注成RB。这样,将来重新训练时,不仅可以学到RB与上下文相关的词性转移概率,而且学到由IN和RB构成的兼类词目前标注为RB时,与上下文相关的词性转移概率。然后重新训练标注器,并对检测出来的错误标注词语进行校正,提高了标注的精度。 我国开展语料校对研究相对较晚,主要集中在处理切分不一致的问题上。杜永萍和郑家恒(2001)、苗玺和郑家恒(2006)等在对语料库中切分不一致现象的考察和分类的基础上,通过总结规则来提高语料质量。Sun等人(2005)利用搜索语料中的切分变体来排查语料中的潜在错误,然后经过手工校对,标出是切分不一致还是切分错误。文中只进行了组合型切分歧义或不一致的处理,交集型的问题尚未涉及。