随着信息化社会的推进,人类发送和接收信息的方式也日益变化,人脑的信息处理水平和信息处理量越来越与电脑的信息处理水平和信息处理量息息相关。此前各种语言信息处理软件的“语言知识”都是由语言学家或者领域专家赋予的,随着电子版的文本、数字化的媒体、因特网的网站的几何级数的增加,各种新的知识呈加速度性增长,相应的信息处理用语言知识和规范(首先是词汇、术语知识及规范,其次是语法、语义、语用知识及规范)的动态更新问题已经迫在眉睫。所谓动态更新是与静态更新相对而言的,静态更新是在较长的时期中不定期的更新语言知识及其规范,动态更新是指随着社会语言交际的变化,在较短的时间里定期地或者即期地更新语言知识及其规范。本文介绍近几年来我们在动态更新语言知识及其规范方面的总体构想。 一 语言知识动态更新的必要性 语言自身是每天都在变化的事物,只要有人类社会存在,语言交际就存在,随着人类社会的不断变化,语言也就不断变化,语言的知识和规范实际上处在绝对运动状态。 由于新技术使人类的交际方式、出版行为发生空前深刻的质的变化,语言的变化速度正在加快,当今语言1年的变化可能大于过去10 年的变化,而10年的变化可能大于过去100年的变化。 语言变化的速度使得任何人工编纂的词典(包括术语,下同)和语法规则都难以及时跟进修订。在中国中型词典的修订需要10年以上的时间,大型词典和专业词典的修订周期更长。至今没有任何一部词典能够每年修订一次,更不要说即期修订。 词典是既往语言事实的定格,所以在我们进行大规模真实文本的信息处理时,任何词典都显得相对滞后,信息处理需要有及时更新的词典、即期更新的词典,动态更新的语言知识。我们需要“活”的词典去处理“活”的语言事实。 “活”的词典来源于“活”的语言事实。我们无法依靠人工从“活”的语料中随时寻找新的语言变化,以随时编纂新的词典供语言信息处理使用,我们也无法依靠机器自动搜寻以自动生成新的语言词典,因为机器不具备人的语感能力,不能自行评价和判断那些语言中的变化,不能自行进行吸纳和扬弃。目前世界上能够提供的更新语言知识的最好的办法是“机器自动回收——专家进行评价”,即有人工后处理的计算机辅助更新,或者叫“协作性知识管理”。(注:参见 ( 1999.6) D.Vervenne, Co— operative knowledge management through a thesaurus—based document indexing intranet:a case study inthe domain of Applied Epistemology,Synthesis of the Ph.D.dissertationfor thedegree of Doctor in Philosophy,Promotor:Prof Dr.F.Vandamme UNIVERSITY GENT Faculty of Literature and Philosophy belgium.) 本文旨在探讨一种可以动态更新语言知识的新设想,为此我们已经进行了一系列的预备性研究,并发表了若干相关的论文。(注:参见下列参考文献中所列论文:) 二 信息处理用语言知识动态更新的总体构想 1.语言知识动态更新的理论体系和基本方法 流通度理论 语感的量化和语感的计算机模拟 动态流通语料库 结构化语言知识库 动态语言知识评估 启动性语言知识和滚动性语言知识 语言知识的学习与扬弃 语言知识的提问与解释 语言知识的容错与纠错 目前,我们可以比较具体一点说明的是前6项内容的总体设想,后3方面的内容我们以后再细说。 2.语言知识动态更新的系统构成(图一见下页)
三 语言知识动态更新体系的说明 1.关于动态流通语料库 语料库的类型: 生语料库和熟语料库\单语种语料库和多语种语料库\单媒体语料库和多媒体语料库\平衡语料库\平行语料库\监控语料库\虚拟语料库\动态流通语料库 三代语料库的划分: 语料库的发展已经历了第一代和第二代,目前正向第三代语料库发展。一般认为这种发展主要表现在以下几个方面: 语料:从单语种到多语种。 数量:从百万级到千万级再到亿和万亿级。 加工:从词法级到句法级再到语义和语用级。 就基于语料库的经验主义研究和语言统计分析而言,上述三个方面中,数量自然是衡量语料库的级别的十分重要的标准。 “动态流通语料库”的特点: 我们认为:我们提出的“动态流通语料库”是第三代语料库。衡量语料库是否进入新的一代,不仅看贮存数量,还要看加工深度,“动态流通语料库”为语料库的深加工提供了两个极为重要的新属性:动态性和流通性。这两个属性使语料库从过去的死语料库成为“活语料库”,从而成为“活”的语言知识的生存环境,如果说“活”的词典、“活”的语言知识是鱼,“活语料库”则是水。 动态性:“动态流通语料库”的语料是追踪语言的交际不停地即期获取的,从而可以进行历时语言知识的评价和抉择。它的库容量、文本抽取领域、文本抽取媒体、文本抽取时间等都不是一成不变的,而是由一些因素动态决定的,在这方面我们与“监控语料库”和“虚拟语料库”的主张有一些相似之处。(注:参见(1999.4)Sinclair,John《语料库、检索与搭配》,上海外语教育出版社。)