由国家语委承担的国家社科基金语言学科“九五”重大课题《信息处理用现代汉语词汇研究》已经启动,专家论证会于1997年8月27-29日在京召开。参加论证会的有清华大学计算机系、北京大学计算机系、中国社会科学院语言研究所、中国人民大学语言文字研究所、北京语言文化大学、国家语委语用所、天津南开大学中文系、上海师范大学语言研究所、华中师范大学中文系、山西大学计算机系等单位的二十几位语言学界及计算机界的专家学者。论证会由国家语委主任、该课题组组长许嘉璐亲自主持。国家语委副主任、课题组副组长傅永和,国家语委中文信息司司长刘连元及中文信息学会秘书长曹右琦、全国哲学社会科学规划办公室陈文学等也出席了论证会。 该课题将对我国中文信息处理技术的发展以及应用语言学科的建设起到巨大的推动作用。今天,没有人会怀疑计算机处理语言文字的迫切需要。我们日常工作的信息,绝大部分是以语言文字为媒介进行传播、交换和记载的。计算机由数据处理、信息处理发展到知识处理,对语言文字处理无论在深度和广度方面的要求都越来越高。语言研究的成果直接推动计算机技术的发展,语言学研究的进程直接制约了计算机技术发展的进程。由于计算机的使用,不仅更新了语言研究的手段,而且也向语言学工作者提出了新的要求。例如:传统的语言研究是用于人与人的交际,而现在必须考虑人与机器的对话。除了要求计算机为人提供富有智力的友好的界面接口之外,语言研究也要适应它的需要。它需要的是语言的规则,而不是罗列无穷的语言现象。计算机要求规则化、可操作。人理解语言可以凭背景知识,凭语感判断语言现象,而计算机却不行。计算机要求的是对语言的理性分析,要用机械的方法推演和计算。近十几年来,在汉字信息处理取得长足进展的基础上,在汉语信息处理很多领域中也开展了实验性和探索性的工作。汉语信息处理的难点很多,例如:没有词的界限标记,需要解决词的自动切分问题;没有形态变化标记,计算机难于分析词与词之间句法与语义关系;词类划分和兼类情况复杂,词性自动判别和标注困难;句法关系与语义关系不总是一一对应,等等。 目前,汉语信息处理的难点首先集中在词汇层面上。因此,“九五”期间集中各方面的研究力量,开展面向中文信息处理的现代汉语词汇学的应用基础研究,具有重要的战略意义和学术价值。可以说,这一课题的研究直接关系到大规模真实文本自动处理、机器翻译等目标的早日实现。它定向地服务于汉语处理的实际需要,将提供比较系统的科研成果和解决难点的思路。研究工作既要坚持现代汉语词汇学理论体系的学术性,又要在“信息处理用”的前提下提出解决难点的可行途径。研究工作要根据计算机信息处理的实际需要,采用定性和定量相结合的方法,增强科研成果应用于计算机处理时所需要的系统性、穷尽性和可操作性。 论证会认真而热烈。专家们纷纷表示,要把自己多年研究的成果奉献出来,为该项重大课题能有一个高起点尽一份力量。大家一致认为,这样一个国家级的大项目,一定要靠群体的力量,精诚合作;在出成果的同时,还要培养出一大批优秀人才。 本课题将用三年时间完成,共分三个方面,10个子项目: 一、分词研究 分4个子课题:(1)分词词表;(2)分词规范涉及的词汇学问题;(3)歧义切分与未登录词识别;(4)词的构造研究。 汉语信息处理首先遇到的是自动分词问题。词的切分问题已困扰中文信息界多年。如果对分词标准不能尽早取得共识,那么像电子词典和语料库等重要资源就不可能实现真正的共享和使用,也无法避免重复开发的巨大浪费。界定汉语中什么是“词”,是现代汉语词汇学中的一个难点。在“词”的定义上,长期以来,不仅语言学界内部意见不统一,而且与信息处理界也有很大分歧。大家都希望能通过这次合作达到共识。论证会上,很多专家指出,当前可以暂时不给“词”下定义,不讨论什么是“词”,什么不是“词”。分词是为句法分析服务的,面向句法分析,我们要研究的对象是组成句子的单位。组成句子的单位不仅仅是词,有比词大的单位,也有比词小的单位。关键问题是现代汉语的基本单位应该定位在什么上?语素?词?还是短语?国外对此也有一些新的概念,我们可以借鉴。 “分词单位”划分的科学性直接影响汉语进一步加工的合理性和可靠性。计算机自动分词的各种算法设计和分词精度的提高,还有赖于对词的构造进行更深入的分析,如语素分类、语素辨别、语素构词能力、词缀研究、复合词的格式和词义构成、词义搭配等多项研究,以便进一步解决歧义切分和未登录词的识别问题。 子课题要求在考察目前主要分词系统的基础上提出新的理论支持的、可操作的分词系统,包括分词词表和具有处理歧义、识别未登录词能力的分词软件。 二、词类研究 分4个子课题:(1)汉语词类及标记集规范;(2)汉语词类兼类研究;(3)词的语法属性研究;(4)汉语文本的词性标注及标注后处理。 词类的划分,涉及到整个语法体系的问题。目前词的分类体系很多,语言学界和信息处理界仍未能形成一致意见。词无定类,类无定值,这些都是对人而言的。面对计算机应该如何给词分类,似乎应该有一种新概念、新思路,即应该根据信息处理的实际需要而确定。将来的电子词典应该是多模式的,所以应该允许有多种分类标准。有专家提议,在语言学家分歧较大的问题上可以并行研究。