中文文本自动校对

作者简介:
张磊,清华大学计算机科学与技术系,北京 100084 周明 黄昌宁,微软中国研究院,北京 100080 潘海华,香港城市大学中文、翻译和语言学系,香港 张磊,男,清华大学博士研究生。周明,男,微软中国研究院研究员。黄昌宁,男,微软中国研究院主任研究员。潘海华,男,香港城市大学中文、翻译和语言学系副教授。

原文出处:
语言文字应用

内容提要:

本文详细介绍了中文文本自动校对的研究现状,包括文本中错误的分类,中文自动校对中常用的语言模型,以及一些有代表性的工作。作为参考,本文还介绍了英文拼写检查的方法,比较了中英文自动校对的异同并重点介绍了其中对中文自动校对有参考价值的几种基于特征的方法。


期刊代号:H1
分类名称:语言文字学
复印期号:2001 年 05 期

字号:

      [中图分类号]H086.6[文献标识码]A

      [文章编号]1003—5397(2001)01—0020—08

      一 引言

      中文自动校对是近几年兴起的一个研究课题。随着出版业电子化的迅猛发展,其中校对环节的工作量大大增加,人工校对的方式已经无法适应迅速增长的电子文本的数量。因此自动校对的课题被提出来。校对人员希望能由计算机帮助其完成部分或全部校对工作,以减轻繁重的工作任务。除出版业之外,自动校对的技术还可以应用在语音输入、汉字识别、文本编辑、辅助教学等领域。中文的特点决定了中文文本自动校对的难度要远远高于英文等文字。目前国内已经出现了一些商业性的校对系统,如黑马、北成、方正、文捷等。然而这些系统的技术细节没有公布,性能指标也不清楚。中文文本自动校对的研究总的来说还处在刚刚起步的阶段。从事这方面研究的人员还不是很多,公开发表的论文也比较少。目前的中文自动校对方法多是字、词级别上的统计方法,它们使用的语言模型比较简单,利用的语言学知识也不丰富。一方面,中文自动校对方法的性能指标有待提高。另一方面,迄今为止还没有找到一种理论来解决自动校对中的侦错和纠错两个基本过程。似乎人在理解书面文本中的全部知识在文本校对中都是不可缺少的。那么在自动校对中究竟使用什么知识才能既使系统的性能指标达到让人满意的程度,又保证在目前自然语言处理的研究水平下这些知识的获取和使用都是可行的呢?

      二 错误分类以及校对系统的评价参数

      中文文本中的错误形式多种多样。根据错误的文字或符号,我们将其分成以下几种:

      一)文字错误。这种错误占文本中所有错误的绝大多数,也是自动校对研究的重点。根据文字错误的具体表现形式,它又可以分成:

      1.代换错误。包括:

      ①错字。指一个汉字错成另一个汉字。它包括:i )同音或近音错字。例如“彬彬有礼”错成“斌斌有礼”。ii)同形错字。例如“自己”错成“自已”。iii)输入编码相近的错字。例如在五笔字型输入法中,“晶”错成“昌”。

      ②多字代换错。它包括:i)正确字串是一个汉字, 错误字串是两字或多字的。ii )正确字串是两字或多字, 错误字串是一个汉字的。iii)正确和错误字串都是多个汉字的。 在使用键盘输入法输入的文本中,多字代换错误的正误对应字串通常是编码相近的词或词组。但在通过语音识别得到的文本中,则可能出现更复杂的情况。

      2.非代换错误。包括:

      ①缺字错误。例如“计算机”错成“计算”。

      ②加字错误。例如“急起直追”错成“急起直追赶”。

      ③换位错误。例如“秘密”错成“密秘”。

      二)标点错误。

      三)数字错误。

      四)其它字符错误。

      在这几种错误中,文字错误的比例通常要占90%以上,标点错误占5%强。而在文字错误中,代换错误占80%左右,缺字错误占15%左右,加字错误占5%左右。 需要注意的是文本中错误类型的比例由于错误来源的不同会有很大的差别。

      中文文本中的错误来源包括:撰写人员、输入人员、输入系统(如语音输入系统,OCR系统)等。不同来源文本中的错误表现不尽相同。 比如OCR得到的文本中基本上都是一一对应的代换错误; 而通过语音输入的文本就基本上没有纯粹的同形错字。这些情况也都是校对系统需要考虑的事情。

      中文文本自动校对有两个基本任务:①侦错。即发现并警示出文本中的错误位置。②纠错。即给出所警示错误的改正方案。自动校对系统的评价指标主要有:

      系统正确警示的错误数

      召回率=─────────────×100%

       文本中的错误总数

      系统正确警示的错误数

      准确率=─────────────×100%

      系统警示的错误总数

       系统正确给出纠错方案的数目

      纠正率=───────────────×100%

      系统正确警示的错误数

      三 中英文自动校对的异同与N元侦错模型

      英文自动校对的研究早在60年代就已经开展。今天它的技术也相对成熟,并且出现了一批实用的商业系统。由于英文等拼音文字的文本中词与词之间有明显的分隔符,所以它们的自动校对基本以词的校对为核心在两个层次上进行:

      ①非词错误(non-word error)。即字串不是词典中存在的词。例如“the”错成“teh”。

      ②真词错误(real word error)。即虽然字串是词典中的词, 但它与上下文搭配不当。例如“from”错成“form”。这里的搭配不当包括语法、语义等许多方面。

      早期的英文非词错误的侦错方法受到计算机硬件条件的限制,多建立在字母的N元模型上。 这些方法试图通过发现罕见的字母接续(例如shj)来定位有拼写错误的词。 随着计算机存储能力和计算能力的迅速增长,非词错误的侦错方法基本都转移到查字典上。字典里有没有的字母串被认为有错。不依赖上下文的非词错误纠错称为孤立词纠错(isolated-word error correction),它的任务是为非词字母串寻找可能的正确候选词,并对这些候选进行排序。选择候选的主要依据是候选词和非词字母串的相似程度。具体的方法可以分成以下几大类:①最小编辑距离法;②相似编码(similarity key)法;③有容错能力的自动机方法;④N元模型的方法;⑤基于规则的方法;⑥概率的方法; ⑦神经网络的方法等。非词错误的校对方法比较成熟,而且在英文文本错误中,非词错误的比例占相当大。因此英文校对系统的实用性容易得到保证。

相关文章: