1.概述 机器翻译的发展,经历了一个曲折的过程。按照冯志伟(1994,1996)的说法,到1980年代,机器翻译研究经历了草创期、萧条期、复苏期、繁荣期等几个阶段。草创期以1954年在美国乔治敦大学用IBM计算机进行的首次机器翻译实验为标志,这时的机器翻译方法还比较简单,基本上采用的是单纯的查词典和词频统计等方法,笔者这里称之为朴素的统计方法。而1964年的ALPAC报告将全世界的机器翻译热潮打入了冷宫。在1970年代,随着Chomsky语言学的兴起和人工智能研究的发展,人们普遍认为要实现机器翻译必须对语言进行理解,在这种背景下,基于规则的机器翻译方法开始发展起来。进入1980年代以后,机器翻译进入繁荣期,基于规则的机器翻译方法逐步成熟,市场上出现了很多机器翻译系统。但这种繁荣并没有持续下去。1980年代末期到1990年代,人们发现基于规则的机器翻译系统性能很难进一步提高,面向社会生活中使用的真实语言的时候,机器翻译系统几乎无法给出有用的译文。笔者把这个阶段称为平台期。也正是这个阶段,基于语料库的机器翻译方法开始被提出来并取得了一些进展,这包括基于实例的方法和基于统计的方法。而从1999年开始到现在,统计机器翻译方法取得了突破性的发展,并且现在仍在迅速发展之中。这个阶段可以称为再度繁荣期。本文着重介绍近年来统计机器翻译的发展状况以及取得的一些新进展。 1.1 统计机器翻译的基本原理和特点 在统计机器翻译中,“翻译”被理解为一个随机事件。也就是说,将一个源语言句子翻译成目标语言句子的过程是完全随机的。更一般地说,可以认为,任意目标语言句子E都可以是任意源语言句子F的译文,只是概率不同而已。这样,我们就可以定义一个概率P(E|F),用于描述将F翻译成E的概率。这个概率被称为翻译模型。翻译模型要满足归一化条件:也就是说,在F给定的情况下,对于目标语言中所有的句子E,这个概率之和为1。这样,机器翻译问题就可以被分解为三个问题: 建模:对P(E|F)进行定义,给出其数学描述。这是统计机器翻译的核心问题。训练问题和解码问题的解决都是由统计翻译的模型决定的。 训练:利用语料库训练P(E|F)的参数。 解码:就是翻译。对于给定的句子F,在译文空间中,搜索概率P(E|F)最大的句子E。 我们可以看到,与传统的基于规则或者基于实例的机器翻译方法相比,统计机器翻译理论上具有以下特点: (1)有严格的数学理论做基础。所有翻译知识,包括词典、规则等等,都以概率的形式呈现,也就是说表现为某种参数。训练过程就是为了得到这些参数,而解码过程就是利用这些参数去搜索最好的译文。在解码过程中,只需要使用这些参数,而不需要再去访问原始的语料库。 (2)不需要人工构造的翻译知识(包括规则和词典),所有语言知识都是从语料库中自动获取。这并不是说,统计机器翻译不需要翻译知识,而是说所有这些翻译知识都是从语料库中自动获取的。目前,统计机器翻译所使用的语料库一般都是双语句子对齐的语料库。语料库的规模通常在几万句对到几百万句对不等。几万句对的语料库通常只能适用于极小的翻译领域,或者仅仅在实验中用来验证某种新的理论或者方法。 (3)翻译的过程被看成是一个最优解的搜索过程。系统从巨大的可能译文空间中寻找最优的译文,搜索的算法采用人工智能中的一些成熟算法。 由于无需人工编写和调试词典及规则,使得统计机器翻译系统在开发和应用上也出现一些明显的特点和优势:(1)机器翻译系统开发的人工成本低、开发周期短;(2)可以迅速迁移到新的语种;(3)可以迅速迁移到新的领域。 1.2 统计机器翻译的发展历程 统计机器翻译的思想,最早是IBM的研究人员在1980年代末和1990年代初提出来的。IBM的研究人员当时使用IBM最先进的工作站开展了统计机器翻译研究,用短短几年时间、在没有采用任何人工构造的语言知识的情况下,仅仅利用双语语料库,就构造了一个跟Systran公司历时几十年时间开发出来的法英机器翻译系统相媲美的系统,引起了研究人员的广泛关注。但由于当时计算能力的限制,普通研究人员很难得到IBM公司那样先进的计算条件,其他研究者也无法重复IBM公司的工作,以至于这项研究很长时间以来进展非常缓慢。直到1999年,普通计算机的计算能力已经远远超出了当时IBM的工作站的水平,在一次约翰霍普金斯大学的夏季研讨班上,一些对统计机器翻译感兴趣的研究人员成功地重复了IBM当年的工作,并将有关开发工具以开放源代码的形式公开出来,由此引发了统计机器翻译研究的一个新热潮。 下面我们列出统计机器翻译研究中的一些重要历史事件: 1990年代初IBM首次开展统计机器翻译研究; 1999年JHU夏季研讨班重复了IBM的工作并推出了开放源代码的工具; 2001年IBM提出了机器翻译自动评测方法BLEU; 2002年NIST开始举行每年一度的机器翻译评测;