一 语言信息处理的研究对象 随着社会生活的日益信息化,人们越来越强烈地希望用自然语言同计算机交流信息。如果计算机能够“理解”自然语言,用户就能够通过自然语言使用数据库、专家系统、管理信息系统等各种软件,那将一扫计算机屏幕前沉闷枯燥的气氛,使计算机的环境变得更加引人入胜。因此,“自然语言理解”一直是人工智能中的一个富有挑战性的课题。从计算机科学的角度看,自然语言理解的任务是建立一种计算模型,这种计算模型能够像人那样“理解”自然语言。这就有必要给出关于“理解”的定义。然而,由于自然语言固有的复杂性,人们对自己理解语言的机制也还是不甚了了。说话人可以用不同的话表达同样的意愿,也可以用同一句话表达不同的意思。反过来,对于同一句话,不同的听话人也会有不同的反应。人与人用自然语言(包括口头的与书面的)进行交流之所以没有困难,是因为交流总是在一定的环境中进行的,交流双方的知识背景一定有共同的部分,而且交流的目的大体上也有预设。现在的计算机智能还远远没有达到能够像人一样了解环境与理解语言的水平,即使在可预见的将来也达不到这样的水平。因此,给“自然语言理解”下一个本质性的定义是极其困难的。不过,由于语言是信息的载体,关于计算机对自然语言的理解一般可以根据实用的信息处理的观点来进行评判。如果计算机系统实现了(1)人机会话,或(2)机器翻译,或(3)自动文摘,或(4)抑扬顿挫带有感情地朗读文章等语言信息处理功能,则认为计算机具备了一定程度的理解自然语言的能力。由于这些系统除了分析输入给计算机的文章或话语之外,还需要具备生成自然语言的语句或文章的功能,因此,在计算机科学中,除了“自然语言理解”,也常常使用“自然语言处理”或“语言信息处理”这些意义相近的术语。本文则使用“语言信息处理”。观察计算机系统所处理的语言信息,大致上可分为两类:一类是模式信息,如声音和图象,它们是语音识别和文字识别的前期处理对象;另一类是符号信息,如书面语的文本或者作为汉语语音识别结果的音节符号,它们是代码化了的,或者更确切地说,计算机只将每个字符的编码看作处理对象。利用键盘进行人机会话,对存储于计算机系统内的文本进行检索、校对、翻译、做摘要,乃至让计算机“理解”人类的语言所有这些工作,计算机所处理的对象都是符号信息。通常文献中所说的“语言信息处理”是指其处理对象为符号信息,本文也是在这个意义上使用“语言信息处理”这个术语的。 自然语言信息处理经历了艰难曲折的发展过程。无论同计算机科学技术本身的发展速度相比较,还是同计算机适合各行各业的应用技术的发展速度相比较,语言信息处理的发展是相当缓慢的。尽管如此,由于社会需求的推动,特别是近年来,Internet迅速扩张,大量的信息犹如潮水般涌来,这些信息的主要载体仍然是自然语言,人们渴望发展自然语言信息处理技术以实现文本自动分类、文献检索、信息提取、自动翻译、自动文摘、自动勘校,以加速信息、知识与文化的交流,促进社会、经济、科学的进步,显然这是每一个国家都面临的挑战。语言信息处理技术的发展又有了新的强大的推动力量。人们已经了解到,语言信息处理技术有着广阔的应用领域。已有一些语言信息处理系统形成产品,进入了市场。同时,人们在开发语言信息处理系统时所创造的各种分析技术,所积累的诸如电子词典、语料库等语言数据资源也会被集成到各种信息处理系统中,从而提高信息处理系统的智能水平。语言信息处理产业崛起的前景已经呈现在人们眼前。语言信息处理研究所取得的理论成果还会对哲学与人文科学的发展产生重要的影响,其社会意义可能更在技术、经济意义之上。自然语言理解的研究也在为探索人类智能的本质贡献力量。 我国的学者研究语言信息处理,自然以汉语作为主要研究对象。汉语信息处理同其他语言有很多的共性,也有自己的特性。同科学技术的其他领域一样,在语言信息处理领域,中国学者也面临竞争和挑战,不过这个领域却为中国学者留下了更为广阔的空间。汉语的“根”在中国。国内学者同汉语最亲近,最易把握汉语信息处理的特殊性。关键的问题是如何处理好既要努力同国际研究接轨又要充分把握汉语信息处理特殊性的关系。在艺术界人们承认最有民族性的艺术也最有国际性,在语言信息处理领域也应作如是观。中国学者只要充分认识到自己的优势,善于扬长补短,一定可以在语言信息处理领域为中国的发展和世界的进步作出自己独特的贡献。 二 语言信息处理系统的基本模型 机器翻译系统是典型的,其应用价值也是最明显的自然语言处理系统。当代机器翻译系统的模型可用图1表示:
图1 机器翻译系统基本模型 图1反映的是基于规则方法的机器翻译系统的基本模型。90年代,机器翻译研究还发展了基于统计与基于实例的各种模型。不过,当前世界上实际运行的机器翻译系统基本上仍以基于规则的模型为基础。从这个基本模型可以了解到,机器翻译系统的基本原理乃是要素合成原理。首先将原文的句子分解成基本构成要素(词,惯用语等),这样才可以查词典,才好运用语法规则找出句子的结构,这就是句法分析(包括词法分析),并通过语义分析及语境分析排除不适当的歧义,从而形成原文的机器内部表示。于是可在结构的层次上进行转换,得到译文句子的结构,并选择适当的译词,以后再进行词序调整、虚词增删及形态变化,最终得到译文的表层句子。