中间语言机器翻译的有关问题

作 者:

作者简介:
熊文新 电子工业部计算机与微电子发展中心,邮编:102206

原文出处:
语言文字应用

内容提要:

本文评述了机器翻译方法的几种类型,并着重介绍了中国语言机器翻译方法,指出翻译的本质就是把一种语言表述的意义用另一种语言表述,中间语言是建立在语义基础上的人造语言。阐述作者对中间语言的建造,及其原则和几个关键性问题的考虑。


期刊代号:H1
分类名称:语言文字学
复印期号:1998 年 10 期

关 键 词:

字号:

      一 机器翻译方法的类型

      机器翻译的方法大致可分为经验主义的和理性主义的。前者通常称为基于语料库的(corpus-based)方法,一般是利用统计手段,通过对大规模的双语或多语语料库进行概率运算,根据各语言要素之间的相似程度来构造语言模型,实施对齐(alignment)算法。这种思想着重语言具有频度性,语言性质可以经由大量的语言使用现象来发掘。具体来说就是经过对语言各个层面的统计运算结合一定算法来实现翻译的。一般来说,如果用作训练的语料足够大,足够标准而且覆盖面足够宽的话,是可以减轻人工构造翻译所需知识库的压力,保证翻译的一致性。但是事实上,要满足实现它的条件在现阶段是有困难的。而且同样也不能排除知识库的建设,因为究竟算法的设计、对齐的标准也需要设计者的语言知识。后者通常称为基于规则的(rulebased)方法。主要是通过自然语言处理技术和人工智能方法来实现。由人工或机器辅助先构造供翻译用的词语信息库和句法语义规则库,通过知识表述、知识推理,经由分析、生成等步骤来进行。而在具体实施中,又有基于转换(transfer-based)和中间语言(interlingua)的方法。语法转换法在分析和生成过程中直接将源语言的句法结构转换成目标语言的句法结构。而中间语言法则是把源语言的语义转换成不依赖于任何一种语言的独立的中间语言。然后再从中间语言转换成目标语言。其中对源语言的分析和对目标语言的生成是互相脱离的。好处是因为中间语言独立于任何现有的自然语言,所以可以单独进行从源语言到中间语言的分析和从中间语言到目标语言的生成,更适合于多语种的机器翻译。其中一个最大的问题就是中间语言的设计。因为这种翻译方法的核心就是设计一种合适的中间语言。中间语言本身就是一个知识体系,虽然它是人为设计出来的,却要能表示出翻译中所涉及语言的意义。

      目前在获得成功的机器翻译系统主要采用的是受限语言(controlled language)或子语言(sublanguage)方法。由于它们或在领域文体的限制或在词汇、句法等语言各层面的系统化、标准化,使得输出结果大大鼓舞了机器翻译界的信心,显示出人工构建的良好的语言模型对机器翻译质量所起的巨大作用。最近出现的神经网络方法也在学习机制和规则优化、并行运算等方面有所加强。

      不管什么样的翻译方法,由于它处理的对象是自然语言,而中间语言方法还有设计一种合适的人工语言的工作,因此,对语言的认识、尤其是对语言表现意义的认识在机器翻译中就显得尤为重要。

      二 中间语言

      

      机器翻译一般分成两个部分,对源语言的分析和目标语言的生成。前者主要是通过对语言形式分析后得到所要表达的意义,这其中既有分析过程的形式结果和分析后形成的内容等多方面的信息;后者是根据对前者的分析结果,按照目标语言的形成规律生成合适的线性序列。一般处理既可以将这两个过程合二为一,即直接将对源语的分析转移成目标语,如语法直接转换法;也可以通过一个中间环节,即中间语言,将所有源语分析的结果信息用中间语言来表示,生成目标语言时只需根据中间语言存储的源语信息,按照中间语言与目标语的对应来进行。这样在进行多国语言翻译时,就不必对所要翻译的各种语言都作了解。开发者所要研究的只是中间语言的制定和自己民族语言与中间语言的对应关系。

      (一)中间语言翻译的系统

      从事中间语言方法的多语种机器翻译系统中美国新墨西哥州立大学的ULTRA系统,其特点是双向的PROLOG语法、能够对不标准的输入给出近似的译文、并且拥有一个优先语义分析器和获取大容量的机器可读词典。微电子与计算机技术公司的研究重在可逆性和目标语惯用法的生成及将话语因素整合到表达式中。此外还有欧洲的DLT系统和飞利浦的Rosetta系统;日本NEC的PIVOT,富士通的ATLAS等。

      中间语言翻译法最主要的应该是卡耐基·梅隆大学的KBMT和KANT系统。这是一个基于知识的受限语言翻译系统。它认为翻译不仅应该包含有语言知识,还应具有理解能力。除了传统的句法分析和生成部分外,还有一个映射规则解释器(mapping rule inter-preter)将词汇功能语法形式的结构转换成语义表示,并且通过一个交互环境来解决遗留的歧义问题。中间语言实际上就是把源语言反映的实际事件当作完全解释的命题的网络。

      日本CICC组织的多国语言机器翻译系统(MMT),包括日语、汉语、马来语、印尼语和泰语的五种语言互译。采用的就是建立一种能够表示源语言句子各种信息、以语义为基础的概念关系体系的中间语言。表达意义是由概念通过关系连接而形成的,如果要生成目标语言,则同时还需要利用其他辅助生成语言表层的各种属性。所有这些信息包括关系、概念、属性都在中间语言中得到体现。

      最近联合国大学高等研究院(UNU/IAS)实施了旨在消除网上语言障碍、让网络信息公平流通的通用网络语言(UNL)工程。这项工程意图在促进世界的信息交流,涉及的语言达十几种,随着发展还可能进一步有新的语言加入,因此采用中间语言是不可避免的。因为它是一个动态的过程。基于规则的直接转换法是一对一的,不容易扩展,而中间语言则是一个独立的系统,增加新的语言时,只需将其连接即可。当然情况也不那么简单,可能在新语言出现时,如果在中间语言中不能连接时,那么就应该随时考虑中间语言。所以中间语言也是不断地在做动态调整的。

相关文章: