关于大规模真实文本语料库的几点理论思考

作 者:
张普 

作者简介:
张普 北京语言文化大学语言信息处理研究所,邮编:100084

原文出处:
语言文字应用

内容提要:

本文对于语料库的建设和建设中的相关问题进行了一些反思,从普通语言学、社会语言学的角度,思考了一些与句法、语义、语用相关的理论问题,希望对今后的语料库建设能有所裨益。


期刊代号:H1
分类名称:语言文字学
复印期号:1999 年 05 期

关 键 词:

字号:

      一 关于语料库建设

      我国的语料库建设始于80年代初期。那时的语料库叫语言资料库,建设的主要目的是为了给字词典的编纂提供例句或者给语言学家研究语言提供第一手资料。而信息处理领域的专家由于信息处理的需要,也差不多同时开始建立语言资料库,对语言进行计量研究。这种建立在计算机中的语言资料库简称语料库(corpus),它是大规模真实文本的有序集合,是利用计算机对语言进行各种分类、统计、检索、综合、比较等研究的基础,而“文本”(text)则是语言的符号串,文字信息的处理对象,是依据语言学的原则和数理统计的方法从自然语言中抽取出来的(注:参见GB12000.1—90《汉语信息处理词汇01部分; 基本术语》,中国标准出版社,1991。)。根据研究的需要,所抽取的文本的长度有时是其自然长度,有时是定长的。在从相对而言无限的自然语言材料中抽取有限文本时,有时是等密度的,有时是不等密度的。

      从90年代开始,国际自然语言处理领域发生了一些重大变化,其特征之一就是转向对大规模真实文本的研究和处理,以大规模真实文本为基础的语料库及其语言研究和知识自动获取受到高度重视,并且越来越走向深入和实用。1993年清华大学黄昌宁发表《关于处理大规模真实文本的谈话》(注:黄昌宁《关于处理大规模真实文本的谈话》,载《语言文字应用》,1993年第2期。), 指出国际计算语言学界已经把大规模真实文本的处理确定为未来一个时期的战略目标,给语言文字研究带来的巨大影响之一就是语料库语言学的崛起,该文引起语言学界的注意。1995年东北大学姚天顺主编的《自然语言理解》(注:姚天顺等著《自然语言理解》,清华大学出版社、广西科学技术出版社,1995。)一书出版,其中有专门一章讲述“语料库语言学”。1997年复旦大学出版吴立德主编的专著《大规模中文文本处理》(注:吴立德等著《大规模中文文本处理》,复旦大学出版社,1997。),该书在借鉴国外研究成果的基础上,以大规模中文文本为处理对象,系统地介绍了大规模真实中文文本信息计算机处理的理论和方法。

      90年代,汉语语料库的建设和研究得到了蓬勃的发展。语料库的规模从百万级发展到千万级和上亿级,语料的加工深度从字一级发展到词法级、句法级、语义级和篇章级,不同级别的加工技术的成熟程度各不相同。据了解到目前为止,国内已经开发的不同加工深度的现代汉语熟语料库有20余个。仅就北京语言文化大学而言,近十余年开发的各种语料库就有“现代汉语词频统计语料库”(1985年),“当代北京口语语料库”(1992年),“现代汉语语法研究语料库”(1995年),“汉语中介语语料库”(1995年),“现代汉语句型语料库”(1995年),与香港理工大学中文及双语学系联合建设的“现代汉语语料库”(1998年),与清华大学联合承担国家自然科学基金重点项目“语料库语言学研究的理论、方法和工具”也建设了“现代汉语语料库”(1998年)。由于计算机硬软件环境的发展和中文文本的电子版(包括光盘版和网络版)越来越普及,语料库的建设和开发相对而言越来越容易,而语料迅速扩充和膨胀也带来了另外一些问题,例如:语料中的明显错误和不规范用法应否修正问题;统计中的数据稀疏问题;垃圾语料带来的统计垃圾问题;汉语语料统计中的随语料增长的垃圾泛滥问题等等(注:邱超捷 宋柔 欧阳龙根《大规模语料库中词语接续对的统计与分析》载《语言工程》,清华大学出版社,1997。)。

      本文对于语料库的建设和建设中的相关问题进行了一些反思,从普通语言学、社会语言学的角度,零星思考了一些与句法、语义、语用相关的理论问题,提出来与同行进行讨论,希望对今后的语料库建设能有所裨益。

      二 关于交际

      经典认为:语言是人类最重要的交际工具。现在应该再加上:也是人机之间最重要的交互工具。如果“对话”就是最重要的交互,那么,交互也就是人机之间的“交际”。

      但是,什么是交际?交际具有什么性质?

      交际总是双方的行为,交际首先分为语言交际和非语言交际。语言交际依靠语言作为载体来传递信息。我们仅探讨语言交际。语言交际本是一种人类传递信息的行为和过程。通俗一点说就是“一个人”要把他所知道的消息告诉“别人”,“别人”要懂得“这个人”所说的消息。所以,交际就是一方表达,另一方理解。以电脑为“一方”或“另一方”,研究电脑如何表达人的语言是“自然语言生成”,研究电脑如何理解人的语言就是“自然语言理解”。因此,研究“自然语言处理”(包括生成与理解),不可以不研究语言交际,不可以不研究人脑的语言机制和模拟人脑的语言机制。

      从表达方和理解方来看,现在交际行为至少有以下四种类型:

       人表达←──→ 人理解人表达←──→机器理解

      机器表达←──→ 人理解 机器表达←──→机器理解

      “交际语言学”认为交际是个极其复杂的问题,同样的交际主题,交际主体之一换个角色,由于其知识、教养、性格、心理素质、临时心绪等的不同,都会给交际带来截然不同的结果(注:李岗《交际语言学引论》,中国铁道出版社,1998。)。徐通锵认为:“所谓‘交际’,其实质就是交流对现实的认知。”(注:徐通锵《语言论》,东北师范大学出版社,1997。)

      我们认为:交际活动或者说交际行为具有两重性,它既是一种社会行为,也是一种个人行为。交际活动是两重性的统一体,社会行为要通过个人行为来体现,个人行为要融入社会行为之中。作为社会行为,表达者和理解者要遵从社会的习惯约定和为管理社会行为制定的规范,才能达到交际的目的;作为个人行为,表达者又是自由的和自主的,因此,既会出错,也会创新,理解者既要容错,也要学习。交际过程中通过“问答”和“讨论”,作出“纠错”和“解释”是不可避免的。这些认识是本文进行理论思考的最基本的也是最重要的出发点。

      表达—理解,容错—纠错,解释—学习,对话—讨论,这些就是自然语言处理中计算机的最基本的也是最重要的智能活动或智能行为。

相关文章: