祝贺全国语言文字工作会议召开(之一)

作者简介:
文炼,上海师范大学中文系教授,邮编:200234 汪成为,中国工程院院士、国防科工委教授 白硕,国家智能计算机研究开发中心研究员,邮编:100080 徐通锵,北京大学中文系教授,邮编:100871 徐烈炯,香港城市大学中文、翻译及语言学系主任

原文出处:
语言文字应用

内容提要:


期刊代号:H1
分类名称:语言文字学
复印期号:1998 年 07 期

关 键 词:

字号:

      几点想法

      展望21世纪,我们语言工作者都在思考如何为社会主义建设事业作出新的贡献。在汉语语法研究方面,我想到的是:

      第一,无论是探讨汉语规范化问题,还是考虑词典的编纂问题,无论是研究中文信息处理问题,还是思量语言教学问题,都会遇到一种瓶颈现象,那就是如何实现词的切分。

      关于这个问题,过去着重讨论“词是什么”,于是出现种种定义。今后应该研究“什么是词”,让理论的阐述与实际操作紧密地结合起来。从理论上讲,词的存在有客观依据,同时在一定范围内可以有人为的规定。如何使这个人为的规定合理合宜,正须群策群力加以探讨。依我看,应该制订三个词表:封闭性词表、半封闭性词表、开放性词表。

      第二,词类问题仍旧是个热点。现代汉语词类的次范畴须进一步研究。一方面要发现新的次范畴,一方面对已有的次范畴要重新认识。单纯以意义为标准而缺乏形式标志的次类能不能成立,宜深入讨论。要建立两个新的词类系统,一是文言词类系统,一是便于机器识别的词类系统。建立这两个系统,关键在突破现有的词类框架。特别是后者,不妨大胆违背“常识”。

      第三,在信息处理方面,光有了词表还不能解决分词的问题。歧义类型,消除歧义的方法有待进一步研究。这种研究可以先在特定的文体范围内进行,文学作品的语句切分工作宜稍缓开展。

      第四,要编写一部或者几部系统描写现代汉语语法的著作,以适应国内外各方面的需要。丁声树等人编著的《现代汉语语法讲话》是1961年出版的,赵元任的《A Grammar of spoken Chinese》是1968 年出版的,两部著作的内容丰富,人们至今还常常引用。可是语言在发展,有些现象在改变,近二十来年的研究成果也有待整理,亟宜组织人力,编写出新的现代汉语语法专著。

      重视宏观规划

      增进中文信息处理和语言文字学研究的结合

      加速国民经济信息化的进程

      一、信息化社会的基本构成

      集成电路是信息社会的细胞

      通信网络是信息社会的神经

      计算机是信息社会的大脑

      信息资源建设是信息社会的血浆

      人工智能技术是信息社会的营养

      安全技术是信息社会的免疫系统

      二、21世纪初信息技术的发展预测

      1971年一块芯片集成2500个晶体管。今天产品级已达880 万个晶体管,且尚有提高潜力,将继续遵循Intel 公司的创始人之一的戈登·摩尔预测,集成在芯片上的二极管的数量将每两年增长一倍。

      随着处理器芯片功能的增强,PC机功能也发生变化,预计2011年用0.1微米工艺,每秒处理10亿条指令。

      2002年研制成100万亿(100Teraflops)超级计算机,20 年内研制成1000万亿次计算机。

      网络计算成为主流,计算机走入千家万户。从网络上交换数据,到交换应用,到交换感受。

      人工智能技术将有很大的发展

      克服传统信息技术的“瓶颈”

      由“计算”扩大到“算计”

      由单维的数字化到多维(多媒体)信息处理

      由基于逻辑到基于内容

      由被动处理到主动处理

      缩小了人与计算机之间的隔阂

      由定量逐步实现定性与定量的结合

      虚拟现实技术(灵境技术)使人能得到身临其境感

      三、863—306(智能计算机)的战略目标

      为智能应用研制高性能的计算机系统

      为建立和谐的人机环境而努力

      多媒体技术、多模式人机接口

      网络计算环境

      中文信息处理

      各类智能应用系统

      发展高科技,实现产业化

      “顶天立地”的发展战略

      四、在中文信息处理方面的主要工作

      自1987年起,863 计划信息领域的智能计算机专题一直把智能化的中文信息处理作为重点课题,共累计支持:

      语音识别与合成——24项

      汉字识别——15项

      机器翻译——16项

      自动文摘——3项

      其他(如基础理论等)——15项

      通过全国评比(不仅仅限于863的项目),逐步选优。

      五、主要体会

      醒得不算晚——不走“五代机”的路,较早认识中文信息处理的重要性。

      起得不算慢——许多重要课题在1987、1988年就立项了,在力所能及的情况下也有一定的支持面。

      跑得不够猛——在组织规划上、经费支持强度上,在系统集成上,在推广应用上,在产品开发上,都未达到国家级的强度。

      六、863计划信息领域近期内的设想

      863以信息技术为先导

      在信息领域内,以四大关键技术及产品为跨越发展的“龙头”

      芯片设计技术

      高性能信息网络

      先进计算机

      中文信息处理平台

      (简称“一芯、一网、一机、一台”)

      中文信息处理平台

      面向中文的信息源建设的理论、技术及产品

      汉语语音、文字(包括印刷体和手写体)的识别技术及产品

      基于内容的智能化中文输入、校对和检索查询技术及产品

      中文信息变换与编码技术及产品

      机器翻译技术及产品等

      构成中文信息处理平台及相应产品

      七、建议

      需求牵引、技术推动

      面向信息化建设主战场,面向网络计算的挑战,面向中文信息处理的巨大市场

      中文信息处理如何适应千家万户

      信息系统的安全性是最关心的问题

相关文章: