[中图分类号]H08[文献标识码]A[文章编号]1003-5397(2002)01-0077-08 一 大规模真实文本处理 从50年代初机器翻译课题的提出算起,自然语言处理的研发历史至少也有50年了。了解这段历史的同行,大概都知道我们的研究目标是怎样从小规模受限语言处理走向大规模真实文本处理的。把这个新目标正式列入大会主题的是1990年在赫尔辛基举行的第13届国际计算语言学大会(Coling'90)。理由其实很简单, 因为那些只有几百词条和数十条语法规则的受限语言分析系统,通常被业内人士戏称为“玩具”,是很难有什么实用价值的。政府、企业和广大计算机用户期盼的是像汉字输入、语音识别、文本检索、信息抽取、信息安全和机器翻译那样的、有能力处理大规模真实文本的实用化系统。当时很多人已经意识到,如果再不思变,这个研究领域是否还有资格存在下去都成了问题。设想一下,如果有一天政府和企业不再资助这类只开花不结果的研究,我们还能做什么呢?正是对这段历史的回顾与反思,促使我在1993年撰写了《关于处理大规模真实文本的谈话》[1]那篇论文。 那么八年过去了,情况如何呢?还记得当时我在文中列举了下面四种大规模真实文本处理的应用前景:(1)新一代情报检索系统;(2)按客户要求编辑的报纸;(3)从文本到数据库的自动生成;(4)大规模语料库的自动分析。值得庆幸的是,今天所有这四个方向都有了实用化或商品化的成果。第一个任务是信息检索,如网站上普遍使用的搜索引擎。由于电子出版业和因特网的飞速发展,这门技术虽然还有发展空间,但已经相当成熟了。第二个任务现在叫做信息过滤和自动文摘,事实上当前有些报社或公司已经可以提供这样的服务,如《洛杉矶时报》的MyNews服务(http://www.latimes.com/services/)。第三个任务叫信息抽取,虽然国际上也已经有些专门的公司以此营生,如美国的Symfony公司(http://www.cymfony.com/mission.htm),但仍有许多技术上的难题没有攻克,比如代词的照应(anaphora resolution),非受限文本中的事件识别等等。至于第四个课题,世界各国已建成了多种文字的带标语料库,它们在自然语言处理和语言学研究中发挥了不可替代的作用(试访问北京大学计算语言学研究所的网站:http://icl.pku.edu.cn/introduction/corpustagging.html)。 美国国防部近年启动的TIDES(Translingual Information Detection,Extraction and Summarization)计划(http://www.darpa.mil/ito/research/tides/),把语言信息处理研发的一个重点定位在跨语言的信息检索、信息抽取和自动文摘上。实际就是上面提到的前三个任务,再加上机器翻译。但这里所说的并不一定是高质量的全文翻译。因为比如在跨语言文献检索中,最低要求只需有一部双语词典,把查询中的关键词从一种语言翻译成另一种语言(即目标语),然后就可以通过传统的信息检索方法去查找目标语的文档了。 在行将结束这一节的时候应当指出,尽管大规模真实文本处理是一个战略目标,不等于说小规模受限语言处理,如受限领域的机器翻译、语音对话系统、电话翻译系统和其他各种基于深层理解的自然语言分析系统或理论研究,就不应当搞了。目标和任务的多样化也是学术界繁荣昌盛的一个标志。问题是要分清轻重主次,不要自乱阵脚。这对于政府的科研主管部门和研究团体的学术带头人来说尤其重要。 二 方法的争论 目标和方法通常是密不可分的。如果我们同意把大规模真实文本处理作为自然语言处理的战略目标,那么实现这一目标的理论和方法也必然要跟着变化。无独有偶,1992年在蒙特利尔召开的第4 届机器翻译的理论和方法国际会议(TMI-92 )宣布大会的主题是:“机器翻译中的经验主义和理性主义方法”。会议公开承认,在传统的基于语言学和人工智能方法的自然语言处理技术以外,还有一种基于语料库和统计语言模型的新方法正在迅速崛起。方法的多元化无疑是学术界的幸事,问题是为什么在这个时候萌发出这样一种新方法。 其实,做任何研究的人都会遇到方法论的问题。比如做机器翻译,在底层一般有三种方法可供选择:直接法(如早期的SYSTRAN系统)、转换法(目前的常规方法)和中间语言法(如CICC亚洲五国语言的机器翻译系统等)。在高层则有所谓的经验主义方法(数据驱动、双语语料库、翻译统计模型等)还是理性主义方法(句法-语义分析,中间表示、译文生成等)的争论。 又如,做自然语言的句子分析,一般都会用到词库、句法和语义等知识。但具体实现时,可以是先句法后语义(常规做法),也可以是句法-语义一体化(如蒙太格语法),还可以直接从语义入手(如70年代Schank[2][3]的概念依存理论和概念分析系统等)。了解一下这些方法在历史上的消长,也是有益的。