关于汉语信息处理的认识及其研究方略

作 者:

作者简介:
俞士汶,朱学锋,北京大学计算语言学研究所 北京 100871 俞士汶,男,安徽宣城人,北京大学计算机科学技术系教授;朱学锋,女,广东台山人,北京大学计算语言学研究所副教授;两人的研究方向皆为计算语言学。

原文出处:
114040、北大985

内容提要:

在总结长期实践经验的基础上,笔者分析了为什么自然语言处理是一个相当困难的研究领域,而汉语信息处理是更加困难的研究领域。面对日益强烈的社会需求,汉语信息处理的研究方兴未艾。笔者探讨了开展这项研究的技术路线,特别强调了语言知识库建设的重要性。


期刊代号:H1
分类名称:语言文字学
复印期号:2002 年 09 期

字号:

      [中图分类号]H08[文献标识码]A[文章编号]1003-5397(2002)02-0051-08

      一 引言

      2001年5 月国家语委在无锡召开了语言文字应用研究“十五”科研规划论证会议。笔者对中文信息处理在整个会议进程中得到的重视有相当强烈的感受。无论是领导干部的讲话[1 ]还是国家语委提出的《语言文字应用研究“十五”项目指南(征求意见稿)》,以及专家们的发言与论证,都充分表述了中文信息处理技术对我国社会的信息化进程和信息产业发展的战略意义。作为一名长期从事语言信息处理技术研究的专业人员当然深受鼓舞。

      二 自然语言处理——难

      语言研究确实很难。道理并不复杂。首先,人们研究任何事物和学问总是要依靠思维。研究语言同样离不开思维。可是思维(至少逻辑思维)又要用语言来表达。也就是说,语言既是研究的对象,又是研究的工具。第二,语言现象是无限的,而从事语言研究的人所能利用的资源总是有限的。只用有限的资源去解决无限的问题,实在太困难了。第三,从事语言信息处理研究,最得力的工具自然是计算机。可是,当前可以利用的通用计算机不论功能多么强大,它的本质功能只不过是对一种表现形式的符号串实施一连串的但总是有限步的变换,而得到另一种表现形式的符号串。这个过程同人的思维过程、认知过程是大相径庭的。如果没有跳出这个窠臼,却声称可以在这样的计算机上再现人脑的“理解”机制,即使充分肯定研究者的宏图大志,也要冷静地指出这是对自然语言理解的困难估计不足。

      下面的例子也许可以把这个问题说得更明白一些。笔者偶然读到《今日民航》2001年9月号上的一篇关于“沙漠化”的文章, 这是一篇新闻报道,应该是写给普通人看的。笔者读到其中的这样一段文字:

      几年前由于种植籽瓜有利可图,使大批的种植者就到过渡带来开垦,

      ……。

      在这样的绿洲和沙漠过渡带开垦,极易造成风蚀。却遇到了困难。对于删节号前的那句话,每一个字都认识,也没有专有名称,可是试读了两遍,就是读不通。因为运用自己的语言知识和常识,对后半句进行切分,只能得到“就”“到”“就到”“过”“到过”“过渡”“带”“来”“带来”“开垦”这样一些词语,组织不成可以理解的句子。直到读到删节号后面的那句话,才“顿悟”到一个并不深奥的专业知识:在绿洲和沙漠之间存在着“过渡带”。再返回到前面那句话,这时自己的脑海(知识库)中已经有了关于“过渡带”的知识,因而可以实现正确的切分:

      使/大批/的/种植者/就/到/过渡带/来/开垦/理解它也就不存在困难了。其实,机器处理这段文字的困难还不仅限于此。像“籽瓜”这两个字连在一起也是少见的。笔者只是猜想大概是指一种专门用来取籽食用的瓜。在这样的知识或“预设”的指导下,才可能辨识出“籽瓜”这个词,才能正确切分前半句话。在汉语自动分析技术中,通常把切分作为处理的第一步,正确的切分是理解的基础。这个例子又反过来说明,只有理解了,才能正确切分。对于这段文字,人能理解的关键是“过渡带”和“籽瓜”这两个概念。笔者的亲身经验说明,人即使事先并没有学习过这些知识,但是通过下文可以“领悟”这两个概念。实际上人的理解能力还不限于此。由于当代人有了“环境保护”和“防止沙漠化”的观念,就依据这里所引用的两句不连续的话还可以做出文章的摘要:“为了防止沙漠化,要停止在绿洲和沙漠之间的过渡带发展种植业”。读者不难想象,当前机器的智能同人的智能相比,该有多大的距离!要害在于人脑的这种“领悟”和“推理”的机制是难以形式化的,至少目前还没有这种形式化的成果。因此,计算机也就无法自动填补知识的空缺。目前,人脑的认知机制还是一个谜,这是实现“自然语言理解”的真正障碍。

      三 汉语信息处理——更难

      本节从计算机处理的角度讨论现代书面汉语的特点。这个问题很多学者和笔者都曾探讨过。希望这里能谈得更深入一些。

      1.语言单位。关于作为研究对象的语言单位,学者们有很多论述。笔者认为,以多大的语言单位作为信息处理的对象至少要顾及3 个因素:①应用目标,②技术与理论的发展水平,③语言类型。表达完整知识或信息的语言单位应该是一篇文章或一本书,尽管通常也认为句子是表达相对完整的意义的语言单位。香港城市大学郑锦全教授曾作过一个有趣的实验[10]:看《明报》的一则新闻的最后一句,看不懂,倒着往回多看一句,还是不懂,再往回多看一句,如此继续,直到可以理解为止。实验说明,由于汉语文本中有大量省略、指代的句子,计算机孤立地处理一个句子,或者难以理解,或者产生歧义,是不奇怪的。但目前的技术还不容易驾驭篇章这么大的单位。甚至连处理有显式标记的段落也还困难。当前绝大多数语言信息处理系统(如机器翻译)是以句子作为基本处理单位的。Chomsky 形式语法的产生式规则的起始符就是句子S。实际应用基于统计的n元语法时,n一般不大, 实际上也是约束在一个句子的范围内。朱德熙先生也认为最大的语法单位是句子。有些应用研究,如信息提取和自动文摘,固然要以篇章为对象,但也要以句子处理为基础。

相关文章: