人类的语言发展和语言应用,是与语言技术相依相伴、相辅相成的。人类不断创造着语言技术,利用语言技术促进语言应用,同时也促进着语言自身的进步、人类语言能力的进步和社会进步。而今语言技术已经发展到语言智能阶段,“人-机-人”交际成为主要交际方式,具有一定“语言能力”的“AI助手”开始进入人类生活,人类正在进入“人机共生”的新时代①。 理想状态下,语言智能的发展应由数据和规则“双轮驱动”,但当前主要是由大数据“单轮驱动”,数据成为新科技发展的关键要素和现代经济的生产要素。而这些大数据中,80%是语言数据,故而语言数据问题就成为“人机共生”时代的重要科学问题和经济生产问题。本文简要回顾人类语言技术的发展历程,着重讨论语言数据的管理、网络数据缺陷的弥补及数据伦理学等问题,以加深对ChatGPT(Chat Generative Pre-trained Transformer)等语言大模型背景下的语言数据问题的认识。 一、人类语言技术的发展 语言技术,是对语言和语言活动进行辅助、加工的各种技术。这里的语言是广义的,是“超语”(translanguaging)②意义上的,不仅指人类用于交际和思维的最为重要的符号系统,也包括各种音标、手语、数理符号与公式、交通标识、手机用表情包等语言衍生品,这些语言衍生品可以配合或时常配合语言发挥功能。这里的语言活动是指由“编码、输出、传递、(翻译)③、输入、解码、贮存、反馈”等环节构成的交际过程,或者说是“听、说、读、写、译”等基本语言行为。 (一)语言技术概念的提出 早在2001年,李葆嘉在南京师范大学推动成立了语言科技研究所,创办了语言科学及技术系,“语言技术”成为一个科学问题并进入中国的高等教育人才培养体系。2010年,第23届国际计算语言学大会(International Conference on Computational Linguistics,COLING 2010)在北京召开,笔者在开幕式上做了《语言技术改善语言与社会》④的致辞。当时就认识到:语言技术不仅提高语言的使用效率,还影响语言文字的面貌及其发展走向,促进语言学的发展。随着社会的发展,往往能够以语言技术为基础形成社会职业与产业,成为社会经济的重要分支。由语言应用、语言教育和语言技术等而产生的经济,可以称为“语言经济”。深入考察语言技术对语言生活和社会发展的影响,可以考虑建立“语言技术学”。之后的十几年里,笔者又陆续发表了《不同媒介的语言特征与网络语言的发展》《语言技术对语言生活及社会发展的影响》《语言技术与语言生态》等论文,探讨语言技术的历史发展及未来走向,探讨语言技术对语言、语言运用、语言生态、语言使用者和社会的影响。 (二)语言技术发展的几座里程碑 据研究,两河流域的楔形文字是人类最早创制的文字,距今约有5500年⑤。文字发明之前,人类一直处在口语时期,声波是语言的载体,口、耳、脑是三大语言器官,“人-人”直接交际是基本的交际方式。当时人类发明了结绳记事、表意图画等语言技术,用来辅助语言记忆⑥。文字的产生使语言有了光波这一新载体,有了书面语;手、眼因书写和阅读也发展为语言器官,笔墨纸砚等很多材料可以用于制字、承文;语言交际方式出现了“人-M-人”⑦的间接交际。 中国古代的雕版印刷及宋代发明的活字印刷,是制字印书领域的语言技术。印刷术西传得到西方工业化加持,发展为铅字印刷。直到20世纪80年代末激光照排技术的出现,才结束了铅字印刷的历史⑧。大约1400余年的印刷术(包括激光照排技术),改变了文字面貌和制字方式;书籍可以快速印刷,打破了知识垄断;报纸把当下的新闻、信息及时向四方传播,形成媒体舆论;为教育普及创造了条件,为民族的语言认同提供了帮助。 19世纪与20世纪之交,科学家发明了无线电传输技术,并利用无线电传输语言信号,电报、电话、广播、电视、电影等开始出现。音像技术及有声媒体,使语言又拥有了“传声传影”的电波媒介物。电波并不排斥声波和光波,而是把这两种传统的语言媒介物电波化。在电波新媒介物的条件下,语言功能、特别是口语功能得到放大,口语语体快速发展起来;具有听说观看功能的电子产品成为语言交际的新装备,语言产业有了新形态;随着有声媒体的日常应用,以标准音为标志的国家语言得到迅速普及;在国际上有影响的外语,借助有声媒体传遍全球,形成了国际语言学习、语言应用的新格局。 20世纪下半叶人类最大的发明是互联网,以海底电缆和通信卫星为主纲构造了网络新空间。网络空间孕育了电子邮件、短信、微信、公众号、短视频等语言交际的各种新媒体;传统媒体也都迁移网上,新旧媒体迭代共存、相互融合,多模态的融合媒体逐渐成为承载语言的常态。用笔写字的机会遽减,键盘打字、屏幕选字、耳朵听书的机会骤增;信息传递是“超语言”的、点对点的、碎片化的,专注阅读、深度思维、集中注意力显得十分宝贵;语言生态将发生重大变化,将来只有少数语言保留在通用交际领域,多数语言只能退出生活交际领域,甚至只能成为学术研究、博物馆存留的对象。 语言智能从机器语言翻译开始,之后与互联网相互助力、联袂发展,至今已能从事自动翻译、智能写作、信息检索、信息抽取及自动摘要、社交聊天等多种语言活动,ChatGPT等语言大模型是其发展的一个新高峰。语言智能的发展使语言不再是人类独有,而是人与机器所共同拥有;人需要与智能机器进行语言合作,需要获得AI助手的帮助,人的语言能力将要重新界定;社会进入“人机共生”的时代,语言数据跻身于生产要素的行列。