中文信息处理专题研究:语义研究

——主持人的话

作 者:
张普 

作者简介:
特邀主持人:北京语言文化大学语言信息处理研究所教授 张普

原文出处:
语言文字应用

内容提要:


期刊代号:H1
分类名称:语言文字学
复印期号:1998 年 08 期

关 键 词:

字号:

      语义研究是目前汉语信息处理研究中的重点,也是难点,还可能很快成为热点。

      1.基于理解最终还是要基于语义

      今天,因特网正以我们难以预料的速度向世界的各个角落伸延,网上的信息和知识(信息的积累就是知识)也正以我们难以想象的程度与日俱增。有人说世界正在以拥有信息的多寡重新划分穷人和富人,贫富之间的差距又在加快加大。也有人说一个立足于信息时代高新技术的新的经济模式——“知识经济”已经受到人们的高度重视。

      但是,也不能简单地认为信息和知识就是多多益善,太多了反而浏览不完,无所适从,过犹不及。因而智能化的信息处理系统不仅仅是能自动检索信息,还应能对信息和知识自动进行分类、分析、筛选、过滤、浓缩、提炼、翻译等基于理解的高层次加工。这些高层次的加工必须也只能是建筑在语义的基础之上,“基于理解”最终还是要基于语义。因此各个方面对语义研究的介入和对语义研究取得突破的期冀是必然的,语义研究将逐渐“转暖”“转热”是可以预计的。

      2.语义是奠基石、突破口、入场券

      当前语义研究问题的突破并不是汉语一家面临的难题,英语和世界上的其他语种也面临着同样的刺手问题。就汉语信息处理而言,在字处理阶段,汉字集的庞大和复杂使得汉字进入计算机和汉字编码遇到了特殊的困难;在词处理阶段,不实行分词连写也找不到什么形态标志的书面汉语在自动分词和标注词性时也遇到了特殊的困难,可以说这两个阶段遇到的是书面汉语所特有的难题;在句处理阶段,汉语的句法分析也在一定程度上搁浅,无论是规则法、统计法,还是两者结合的方法,显然都没有也不可能解决全部句法分析问题。因此,一方面有人反思自《马氏文通》以来100年建立的汉语语法体系是否也因为源于有形态变化的西方语言而不适合基本无形态变化的汉语,另一方面又有人加强了对语义的研究,甚至希望另辟蹊径,探讨汉语“意合”的规律。何况对于自然语言理解来说句法分析也并不是目的,理解本来就还要进入语义。而恰恰是在语义这个问题上,汉语和西语、中文和西文却差不多面对着同样的难题。如果说在语言信息处理的字处理、词处理、句法处理阶段中文和汉语都由于特殊困难滞后了的话,那么在语义处理、语用处理、知识处理的高级阶段,我们将和国际上的发达国家处于同一起跑线。语义研究就是进入这个高级阶段的奠基石。

      语义研究既是进入高级阶段的奠基石,也是进入深层次的突破口,这是一个问题的两个方面。语义与概念、判断、推理,语义与人类的思维、认知、智能等这些深层次的问题紧密相连。语言是民族的,深层次的问题往往是全人类的,深层次的突破既造福于本民族也造福于全人类。中文是联合国六种法定工作语言之一,但是,在国际互联网这个日益突飞猛进的“电子联合国”里,却没有“法定工作语言”,知识和信息主要以英文为载体,如果我们不尽快解决网上的电子翻译问题,我们将在国民收入上步入小康的同时在信息和知识上走向贫穷,在知识经济的大潮中沦为第四世界、第五世界,除非我们成为一个双语国家,叫全体国民学习英语。因此,不夸大地说,语义研究也是真正进入以知识经济为主的信息社会的入场券。

      3.面向21世纪的语言信息处理工程

      哲学家、逻辑学家、语言学家对于语义学的兴趣和研究由来已久,本世纪以来各种各样的语义学理论和语义学派也迭出不穷。特别是本世纪50年代末乔姆斯基建立生成语法之后,围绕语法与语义、语义能否做精密的形式化描述、怎样进行形式化描述等不断展开争论,成就了一批现代语义学家,构成了面向信息处理的语义研究。我国语言学界在改革开放之后也更加重视现代语义学的研究,80年代末90年代初以来,伍谦光、徐烈炯、贾彦德、石安石、孙维张、符淮青、徐通锵等先生陆续有语义学专著问世,或介绍西方语义学新论,或结合汉语进行语义分析。80年代后期,中文信息处理领域有专家开始了面向语言信息处理的语义研究,90年代初面向信息处理的语义研究正式列入国家八五计划。清华大学、北京大学、东北大学、上海交通大学、山西大学、中国人民大学、北京语言文化大学、北京理工大学、河南财经学院等院校和电子部计算机与微电子发展研究中心、中国科学院声学所、中国软件公司等研究制作机构都从不同角度对语义的表达、理解进行了研究,北京师范大学、中国科学院心理所也从语义认知的角度做了探索分析。

      限于本期的篇幅,主持人没有能向所有的在语义信息处理方面有造诣的学者发出邀请,已经收到的论文也没能在本期同时刊出。多数作者为了撰写本专题的论文春节也没有休息,他们应该是在呼唤和期盼一个正在转暖转热的语义之春吧!

      如果我们把中文信息处理分为汉字信息处理和汉语信息处理两部分的话,那么在20世纪我们基本上解决的是汉字信息处理的问题,汉字编码、汉字库、汉字识别、汉字照排等等,形成了以“北大方正”为龙头的一批汉字信息处理产业。但是以汉语理解为前提、以语义处理和知识处理为标志的汉语信息处理在20世纪还处于朦胧时期,这是一项跨世纪的语言工程,将造就面向21世纪的语言产业——汉语信息处理产业。

      4.不成熟时期的不成熟的话

      读者从本期的论文中也可以看出:目前学界对于“理解”的理解、有关“概念”的概念,赋予“语义”的语义、界定“知识”的知识都可能是各不相同甚或互不搭界的。面向信息处理的中国的、汉语的语义研究一方面正从格语法(实际是“格语义”)、语义场、义素分析、语义分类、概念从属、可能世界、蒙塔古语义学、情景语义学等西方现代语义学说汲取营养,一方面也要从《说文解字》《尔雅》《易经》《艺文类聚》《太平御览》《册府元龟》等字书、词书、类书中吸纳精华,以在汉语语义研究、理解、表达方面取得全面突破。在我们的这些论文中读者已可见突破的端倪,不过,语义的突破谈何容易,遑论全面突破。语义系统是迄今语言信息处理所遇到的最庞大、最复杂、最变化不定的系统,需要我们付出艰苦的努力。

相关文章: