1.计算语言学中的战略转移 计算语言学兴起于二十世纪五十年代。二十世纪九十年代以前,从事计算语言学研究的绝大多数学者,都把自己的目标局限于某个十分狭窄的专业领域之中,他们采用的主流技术是基于规则的句法,语义分析。尽管这些应用系统在某些受限的“子语言”(sublanguage)中也曾经获得一定程度的成功,但是,要想进一步扩大这些系统的覆盖面,用它们来处理大规模的真实文本,仍然有很大的困难(冯志伟1983)。因为从自然语言处理系统所需要装备的语言知识来看,其数量之浩大、颗粒度之精细,都是以往的任何系统所远远不及的。而且,随着系统拥有的知识在数量上和程度上发生的巨大变化,系统在如何获取、表征和管理知识等基本问题上,不得不另辟蹊径。这样,就提出了大规模真实文本的自动处理问题。 1990年8月,在芬兰赫尔辛基举行的第13届国际计算语言学会议为会前讲座确定的主题是“处理大规模真实文本的理论、方法和工具”。这说明,实现大规模真实文本的处理将是计算语言学在今后一个相当长的时期内的战略目标,计算语言学正面临“战略转移”(strategic transit)的关键时刻。为了实现这样的战略转移,我们需要在理论、方法和工具等方面实行重大的革新。1992年6月,在加拿大蒙特利尔举行的第四届机器翻译的理论与方法国际会议(TMI-92)将会议主题定为“机器翻译中的经验主义和理性主义的方法”。所谓“理性主义”(rationalism),就是指以生成语言学为基础的方法;所谓“经验主义”(empiricism),就是指以大规模语料库的分析为基础的方法。从中可以看出当前计算语言学关注的焦点(冯志伟1996)。 当前语料库的建设和语料库语言学的崛起,正是计算语言学战略目标转移的一个重要标志。随着人们对大规模真实文本处理的日益关注,越来越多的学者认识到,基于语料库的分析方法(即经验主义的方法)至少是对基于规则的分析方法(即理性主义的方法)的一个重要补充。因为从“大规模”和“真实”这两个因素来考察,语料库才是最理想的语言知识资源。但是,要想使语料库名符其实地成为自然语言的知识库,就有必要首先对语料库中的语料进行自动标注,使之由“生语料”变成“熟语料”,以便于人们从中提取丰富的语言知识。可以看出,计算语言学当前面临着的这一场战略转移的关键是知识的获取方式和方法:从依靠“内省”方式转向依靠“语料”的方式,从“基于规则”(rule-based)的方法转向“基于语料库”(corpus-based)的方法,也就是“基于统计”(statistics-based)的方法(冯志伟2010)。 随着战略转移的深入,统计方法已经逐渐成为计算语言学的主流方法。 2003年7月,在美国马里兰州巴尔的摩(Baitimore,Maryland)由美国商业部国家标准与技术研究所NIST/TIDES(National Institute of Standards and Technology)主持的评比中,德国亚琛(Aachen)大学年轻的博士生奥赫(F.J.Och)获得了最好成绩。他使用统计方法,在很短的时间之内就构造了从阿拉伯语和汉语到英语的若干个机器翻译系统(冯志伟2010)。 过去我们研制一个机器翻译系统往往需要几年的时间,而现在采用奥赫的方法构造一个机器翻译系统只要几个小时就可以了,研制机器翻译系统的速度已经大大地提高了。这是机器翻译技术的一个史无前例的重大进步。 早在1949年,美国科学家韦弗(W.Weaver)在他的以《翻译》为题的备忘录中,提出了使用解读密码的方法来进行机器翻译。他说,“我可以说,一本用中文写的书实际上是用英语写的,只不过它是用中文的代码符号编了码而已,这样的说法是很有诱惑力的。”(“It is very tempting to say that a book written in Chinese is simply a book written in English which was coded into the Chinese code.”)(Weaver 1949:2)①。 在六十多年以前的这段话中,韦弗首先提出了用解读密码的方法进行机器翻译的想法,这种想法成为后来“噪声信道模型”(noisy channel model)的滥觞。 这种所谓“解读密码”的方法实质上就是一种统计的方法,韦弗是想用基于统计的方法来解决机器翻译的问题。但是,由于当时尚缺乏高性能的计算机和大规模的联机语料库,采用基于统计的机器翻译在技术上还不成熟。韦弗的这种方法是难以付诸实现的。现在,这种局面已经大大改变了,计算机在速度和容量上都有了大幅度的提高,也有了大量的联机语料可供统计使用,我们有可能从大规模的真实语料库中获取机器翻译的知识。因此,在二十世纪九十年代,基于统计的机器翻译又兴盛起来。 在韦弗思想的基础上,IBM公司的布劳恩(P.Brown)等人提出了基于统计的机器翻译的数学模型。基于统计的机器翻译把机器翻译问题看成是一个“噪声信道”问题,如下所示: