自然语言处理开放资源平台

作 者:

作者简介:
刘群,男,在职博士生,副研究员,主要研究领域为机器翻译、自然语言处理与中文信息处理;中国科学院计算技术研究所 北京 100080;北京大学计算语言学研究所 北京 100871 张浩,男,硕士生,主要研究领域为自然语言处理;中国科学院计算技术研究所 北京 100080 白硕,男,研究员,博士生导师,主要研究领域为自然语言处理、网络安全。国家计算机与网络信息安全管理中心 北京 100031

原文出处:
语言文字应用

内容提要:

我国自然语言处理研究在一定程度上处于一种低水平重复状态。由于缺乏一些公共的基础设施,很多研究工作都要花费大量的精力从底层模块做起,造成研究工作难以深入。本文提出,可将开放式的开发模式应用于自然语言处理领域,并给出了一个面向中文的自然语言处理开放资源平台的设计方案。这个平台能够共享源代码、语料库、词典、学术论文等各种资源,并支持协作式的项目开发。随着参与者的增多和项目的发展,这个平台一定会为我国自然语言处理的研究提供有力的支持。


期刊代号:H1
分类名称:语言文字学
复印期号:2003 年 03 期

字号:

      [中图分类号]H08[文献标识码]A[文章编号]1003-5397(2002)04-0050-07

      零 引言

      我国的自然语言处理研究在一定程度上处于一种低水平重复状态。由于缺乏一些公共的基础设施,很多研究工作都要花费大量的精力从底层模块做起,造成研究工作难以深入。近些年来,随着Linux等开放源码软件的惊人发展,开放式开发的思想正在逐渐深入人心(Raymond,1997)。开放的好处不仅体现在成品上,更体现在过程中。只有当开发过程成为开放式的以后,该领域的工作者才能以最自然的方式形成最大规模的协作,朝着一个共同的目标努力,把一个个好的思路贡献出来,使得一个公共的产品迅速得到演化更新。

      本文提出采用类似Linux的开放源代码方式,建设一个自然语言处理的开放资源平台。这种方式的好处不仅仅在于开放和共享,我们认为一个更大的好处在于,可以吸引一批真正有志于此领域的研究工作者,大家通力协作完成一些大家在孤立状态下难以完成的工作。

      本文还将探讨建设一个面向中文的自然语言处理开放资源平台的若干问题,包括其目标、意义和组织形式、整体设计,以及平台之上的项目管理,并介绍该项工作目前的进展情况。

      一 目标与意义

      1.1 我国自然语言处理面临的问题

      近年来,我国的自然语言处理研究取得了很大的进展。不过,一些深层次的问题也显得更加突出。自然语言处理研究的对象是人类语言。而这个对象体系庞大,从词法层次、句法层次、语义层次到语用层次,现象纷繁复杂,任何个人或研究小组都只能将研究精力集中在某个小范围内,而不可能面面俱到。然而,自然语言问题本身的复杂性又决定了自然语言处理的任何问题都是互相交织在一起的,任何一个问题都很难与其他问题完全割裂起来处理。所以,对于自然语言处理研究来说,一套公用的基础设施就变得非常必要。否则,我们要进行大量的低水平重复开放,并且总是处在争执不下的局面,难以提高这个领域的处理水平。而这个问题在我国的自然语言处理研究中显得尤为突出。这主要体现在以下几个方面:

      (1)缺少公用的语言资源。语言资源,包括词典、语料库、规则库等等,是自然语言研究不可或缺的工具。目前,英语的语言资源已相当丰富,词典、语料库、词法分析、句法分析、命名实体分析等很多基础性的研究领域都有了可共享的资源,这使得相关的研究工作起点很高,工作容易深入。不可否认,我国的自然语言处理领域,各种自然语言处理的基础资源建设也有了长足的进步。其中比较著名的语言资源包括:北京大学计算语言学研究所开发的《现代汉语语法信息词典》;北京大学计算语言学研究所、人民日报社和富士通公司联合开发的《人民日报标注语料库》;董振东先生的《知网》;梅家驹先生的《同义词词林》。这些资源对中文信息处理的研究起到了极大的推动作用。不过,与英语相比较,我们可以得到的可共享资源还是要少得多。仅举一个简单的例子,汉语的人名识别问题非常重要,可是却没有一部公用的人名词典供大家研究之用。

      (2)缺少公用的软件模块。一些公用的底层软件模块对于自然语言处理来说也是必不可少的。不用说词法分析、句法分析这样的复杂模块,一些更底层的简单模块,比如词典检索、汉字代码处理等等,都要耗去编程者很多的精力。这种状况极大地妨碍了我国自然语言处理研究的进展,一个明显的问题就是,几乎所有从事相关研究工作的人都要自己开发一套分词系统,这就导致我国的分词研究低水平重复式地长盛不衰,而一些更加深入的研究工作,如句法分析、语义分析等等,却总是难以深入。

      (3)缺少公用的测试平台。重视评测,是目前自然语言处理研究的一个重要特点。公共的测试平台可以使大家的研究工作有一个互相比较的基准,避免在低水平上重复研究,而可以集中精力探索有突破性的新方法。目前国际上一些著名的评测,如MUC、TREC、CoNLL等,都极大地促进了相关领域的研究工作。汉语的自然语言处理研究中就很缺少这种公用的平台。例如汉语的词语切分,虽然研究已经非常多,但由于缺少公用的测试平台,大家的研究工作缺乏可以比较的基础。虽然在国家863、973项目的范围内都组织过一些评测活动,这些评测活动也都对相关的研究工作起到了很大的促进作用,但是由于这些评测的数据、程序、规范都没有做到完全公开,后续的研究工作无法沿用这些评测进行比较,这也使得这些评测的影响受到了一定的局限,还没有形成真正意义上的公共测试基准(benchmark)。

      (4)缺少公用的文献资料库。对于中国的研究者来说,虽然一般而言,阅读英语文献都不成问题。但是要比较全面的掌握相关研究的最新动态,要阅读大量的文献资料,还是要付出比西方学着多得多的精力。特别是对一些初次进入此领域的研究者来说,往往有点无从下手。建立一个比较完备的文献资料库,对于从事此领域研究的人来说,无疑是非常有益的。

      (5)缺少交流合作的机制。过分分散也是我国自然语言处理研究所面临的重要问题。当然这里有很多的客观原因,并不容易解决,例如缺乏经费的支持、单位之间的合作涉及知识产权问题等等。由国家相关管理部门(如自然科学基金委、863、973专家组等)出面,统一牵头组织攻克一些大的研究课题,是一个好的解决办法。不过,对于这样一个涉及众多单位的大型研究课题来说,项目的组织管理工作是非常重要的。从另一个方面看,“开放源码”和Linux的成功,为我们指明了另一条可行的道路。

      1.2 开放源代码的含义

      “开放源码(open source)”的概念由公益组织“开放源码促进会(OSI)”(参考文献[6])所定义,对这类软件用户有使用、修改、复制的自由,因此这类软件的许可证(license)的宗旨往往与传统商业软件相反,旨在保护用户的使用权力。软件的作者乐意共享其劳动成果,也欢迎同行参与对该软件的批评与改进。

相关文章: