人机共生时代的语言数据问题

作 者:

作者简介:
李宇明,北京语言大学语言政策与标准研究所(北京 100083)。

原文出处:
华中师范大学学报:人文社会科学版

内容提要:

人类不断创造各种语言技术以辅助语言应用、改善语言生活,从结绳记事、表意图画到文字的创制、印刷术的应用、广播影视的普及,而今进入了以互联网和语言智能为代表的现代语言技术阶段。“人-人”直接交际方式逐渐减少,“人-机-人”的间接交际方式成为常态,未来正在进入为人类配备AI助手的“人机共生”时代。以ChatGPT为代表的语言大模型是人类语言技术发展到今天的高峰,显示了大数据、特别是语言数据的强大功能;而语言大模型在语言表达中所表现出的知识缺陷,是网络上缺乏专门领域、特殊人群、特殊场景、非通用语种等“特域数据”造成的。数据,包括语言数据,已成为新科技发展的关键要素和现代经济的生产要素,必须通过法律法规、规范标准对数据进行管理,通过数据市场促进数据的生产、流通和利用,通过数据公司有规划地集聚“特域数据”以有效弥补网络数据之缺,通过语言智能教育来促进公民具有适应AI助手的能力,通过就业市场预测机制及时将劳动力转移到新技术催生出的新岗位。数据管理应宽严适度,既要尽力促进语言智能发展,又要保证技术向善,使其在伦理学的轨道上前进。


期刊代号:H1
分类名称:语言文字学
复印期号:2024 年 01 期

字号:

      人类的语言发展和语言应用,是与语言技术相依相伴、相辅相成的。人类不断创造着语言技术,利用语言技术促进语言应用,同时也促进着语言自身的进步、人类语言能力的进步和社会进步。而今语言技术已经发展到语言智能阶段,“人-机-人”交际成为主要交际方式,具有一定“语言能力”的“AI助手”开始进入人类生活,人类正在进入“人机共生”的新时代①。

      理想状态下,语言智能的发展应由数据和规则“双轮驱动”,但当前主要是由大数据“单轮驱动”,数据成为新科技发展的关键要素和现代经济的生产要素。而这些大数据中,80%是语言数据,故而语言数据问题就成为“人机共生”时代的重要科学问题和经济生产问题。本文简要回顾人类语言技术的发展历程,着重讨论语言数据的管理、网络数据缺陷的弥补及数据伦理学等问题,以加深对ChatGPT(Chat Generative Pre-trained Transformer)等语言大模型背景下的语言数据问题的认识。

      一、人类语言技术的发展

      语言技术,是对语言和语言活动进行辅助、加工的各种技术。这里的语言是广义的,是“超语”(translanguaging)②意义上的,不仅指人类用于交际和思维的最为重要的符号系统,也包括各种音标、手语、数理符号与公式、交通标识、手机用表情包等语言衍生品,这些语言衍生品可以配合或时常配合语言发挥功能。这里的语言活动是指由“编码、输出、传递、(翻译)③、输入、解码、贮存、反馈”等环节构成的交际过程,或者说是“听、说、读、写、译”等基本语言行为。

      (一)语言技术概念的提出

      早在2001年,李葆嘉在南京师范大学推动成立了语言科技研究所,创办了语言科学及技术系,“语言技术”成为一个科学问题并进入中国的高等教育人才培养体系。2010年,第23届国际计算语言学大会(International Conference on Computational Linguistics,COLING 2010)在北京召开,笔者在开幕式上做了《语言技术改善语言与社会》④的致辞。当时就认识到:语言技术不仅提高语言的使用效率,还影响语言文字的面貌及其发展走向,促进语言学的发展。随着社会的发展,往往能够以语言技术为基础形成社会职业与产业,成为社会经济的重要分支。由语言应用、语言教育和语言技术等而产生的经济,可以称为“语言经济”。深入考察语言技术对语言生活和社会发展的影响,可以考虑建立“语言技术学”。之后的十几年里,笔者又陆续发表了《不同媒介的语言特征与网络语言的发展》《语言技术对语言生活及社会发展的影响》《语言技术与语言生态》等论文,探讨语言技术的历史发展及未来走向,探讨语言技术对语言、语言运用、语言生态、语言使用者和社会的影响。

      (二)语言技术发展的几座里程碑

      据研究,两河流域的楔形文字是人类最早创制的文字,距今约有5500年⑤。文字发明之前,人类一直处在口语时期,声波是语言的载体,口、耳、脑是三大语言器官,“人-人”直接交际是基本的交际方式。当时人类发明了结绳记事、表意图画等语言技术,用来辅助语言记忆⑥。文字的产生使语言有了光波这一新载体,有了书面语;手、眼因书写和阅读也发展为语言器官,笔墨纸砚等很多材料可以用于制字、承文;语言交际方式出现了“人-M-人”⑦的间接交际。

      中国古代的雕版印刷及宋代发明的活字印刷,是制字印书领域的语言技术。印刷术西传得到西方工业化加持,发展为铅字印刷。直到20世纪80年代末激光照排技术的出现,才结束了铅字印刷的历史⑧。大约1400余年的印刷术(包括激光照排技术),改变了文字面貌和制字方式;书籍可以快速印刷,打破了知识垄断;报纸把当下的新闻、信息及时向四方传播,形成媒体舆论;为教育普及创造了条件,为民族的语言认同提供了帮助。

      19世纪与20世纪之交,科学家发明了无线电传输技术,并利用无线电传输语言信号,电报、电话、广播、电视、电影等开始出现。音像技术及有声媒体,使语言又拥有了“传声传影”的电波媒介物。电波并不排斥声波和光波,而是把这两种传统的语言媒介物电波化。在电波新媒介物的条件下,语言功能、特别是口语功能得到放大,口语语体快速发展起来;具有听说观看功能的电子产品成为语言交际的新装备,语言产业有了新形态;随着有声媒体的日常应用,以标准音为标志的国家语言得到迅速普及;在国际上有影响的外语,借助有声媒体传遍全球,形成了国际语言学习、语言应用的新格局。

      20世纪下半叶人类最大的发明是互联网,以海底电缆和通信卫星为主纲构造了网络新空间。网络空间孕育了电子邮件、短信、微信、公众号、短视频等语言交际的各种新媒体;传统媒体也都迁移网上,新旧媒体迭代共存、相互融合,多模态的融合媒体逐渐成为承载语言的常态。用笔写字的机会遽减,键盘打字、屏幕选字、耳朵听书的机会骤增;信息传递是“超语言”的、点对点的、碎片化的,专注阅读、深度思维、集中注意力显得十分宝贵;语言生态将发生重大变化,将来只有少数语言保留在通用交际领域,多数语言只能退出生活交际领域,甚至只能成为学术研究、博物馆存留的对象。

      语言智能从机器语言翻译开始,之后与互联网相互助力、联袂发展,至今已能从事自动翻译、智能写作、信息检索、信息抽取及自动摘要、社交聊天等多种语言活动,ChatGPT等语言大模型是其发展的一个新高峰。语言智能的发展使语言不再是人类独有,而是人与机器所共同拥有;人需要与智能机器进行语言合作,需要获得AI助手的帮助,人的语言能力将要重新界定;社会进入“人机共生”的时代,语言数据跻身于生产要素的行列。

相关文章: