语言资源视角下的大规模语言模型治理

作者简介:
饶高琦,男,北京语言大学国际中文教育研究院助理研究员,北京语言大学中国语言文字规范标准研究中心,主要研究方向为计算语言学、语言规划、数字人文,E-mail:raogaoqi@blcu.edu.cn;胡星雨,男,北京语言大学国际中文教育研究院在读硕士研究生,主要研究方向为语法学、计量语言学、汉语史,E-mail:1443389328@qq.com;易子琳,女,北京语言大学国际中文教育研究院在读硕士研究生,主要研究方向为数字人文、语言规划、现代汉语语法,E-mail:2536540850@qq.com(北京 100083)。

原文出处:
语言战略研究

内容提要:

近半年来,柴语生(ChatGPT)等大规模生成式语言模型的应用,引发了全社会的关注和反思。对这种大模型,应以工具观加以正视,认可其技术发展带来的益处,同时尽量规避其风险。对它们的治理,应减少对技术本身的干预,将目标定位于大模型赖以研发的语言资源和投放之后的使用。对大模型研发中的语言资源治理,应着力打破中文数据孤岛:发展以联邦学习为代表的分布式模型构建技术,建立国家知识数据开放机制,尽快健全开放、高效的语言数据交换市场;提倡世界知识中文表达,助推中文大模型研发:尽快实现中文精华知识资源面向网络开放,完善中文概念、术语资源,做大、做全领域中文资源。对大模型使用领域的治理,则因大模型本身也是一种重要的语言资源,故应强调其基础资源地位,从标准化、评测和伦理规制的角度进行。


期刊代号:H1
分类名称:语言文字学
复印期号:2023 年 11 期

字号:

      2022年末,以柴语生①为代表的一批基于大规模语言模型的智能应用进入公众视野,并引起了全社会的关注和众多行业的焦虑。然而如同人类历史上所有重要的技术突破,大规模语言模型带来的冲击必须被正视,也应以工具视角审视,进而推动技术本身的发展,以获取红利,并减少实践风险。作为依赖语言数据资源,并以语言服务为主的技术,大规模语言模型的研发依赖语言资源治理的支持,其自身也具有语言资源属性,适用于语言资源治理的诸多侧面。

      一、柴语生应用落地与治理需求

      (一)柴语生与大规模语言模型

      柴语生是2022年11月投放市场的新型聊天机器人,支持多任务连续对话和问答,其特点为:可进行多轮对话、语言自然流畅、会承认错误、能质疑不正确的前提等。②柴语生由大规模语言模型GPT-3.5支持,并在2023年3月升级到GPT-4,其服务也相应升级。GPT全称为生成式预训练转换器模型(Generative Pre-trained Transformer),是一种大规模语言模型(Large Language Model,LLM,以下简称大模型)。典型的大模型还包括BERT③\RoBERTa④、T5⑤、XLNet⑥和悟道⑦等规模不一、技术路线各异的模型。与一般语言模型相比,大模型的训练语料规模巨大,参数急剧膨胀。GPT-3的参数规模达到1750亿,GPT-4已突破万亿,⑧悟道2.0和Switch Transformer则达到了惊人的1.75万亿和1.6万亿⑨。

      超大规模的训练数据和参数量,使得大模型产生了知识涌现能力。在面对提问时只需给出几个任务实例,大模型即可通过推理给出举一反三式的回答,且具备将复杂问题拆分开来的步骤推理能力。因此,它在阅读、答问、摘要、翻译等173项语言相关测试上均有优异表现,甚至在编程和画图上也可圈可点(Wei et al.2022;Nanda et al.2023)。

      (二)大模型落地引发使用热潮和行业反思

      柴语生上线仅5天,用户数量就突破100万,发布后两个月达到1亿,成为史上用户量增长最快的应用程序。但柴语生收集实时信息的能力较弱,且中文知识能力显著弱于英文,更会经常出现“一本正经地胡说八道”的问题。虽然如此,依然有众多用户用它写作。用户给出大致框架和主题,柴语生即可生成文章,其流畅程度强于一般写作者。用户只需在此基础上简单修改即可使用,大大提高了写作效率。

      众多行业都在不同程度上感受到了来自大模型的冲击和挑战。教育行业对大模型的滥用提出不少担忧与顾虑,认为它干扰了教学和科研秩序。美国在线教育平台的调研数据显示,89%的美国大学生使用柴语生写作业,48%的学生借助它完成考试。⑩乔姆斯基批评柴语生正在破坏教育系统,认为它本质上是一个高科技剽窃系统。(11)但是,也有许多人主张拥抱新技术。沃顿商学院有老师要求学生必须使用柴语生完成作业,认为正确使用人工智能工具有助于学生思维能力提高。(12)

      在学术界,包括《自然》(Nature)在内的一些期刊规定大模型不得被列为文章作者,仅可出现在致谢或参考文献中。《暨南学报(哲学社会科学版)》与《天津师范大学学报(基础教育版)》等刊物要求暂不将语言模型工具列为单独或共同署名作者。(13)张华平等(2023)指出,科研工作者使用柴语生等工具,有助于提高科研效率,但可能导致文章质量和透明度降低。

      面对柴语生和深度合成技术引发的冲击和争议,国家互联网信息办公室、工业和信息化部、公安部于2022年11月联合发布《互联网信息服务深度合成管理规定》,规范了包括语言合成在内的深度合成技术的使用规范,严格要求生成内容必须合法合规,并对使用场景进行约束。(14)

      (三)大模型的治理观

      大模型与其他发明的不同之处,是人类第一次无法完全理解其具体运行机制。大模型的优异性能很大程度上依靠大数据中的涌现效应。这一现象如同黑盒遮蔽了其内部工作路径,造成了其结果的不可解释和一定程度的不可控制。这是前文所述各种伦理焦虑的根源。其本质是语言资源及其使用方式带来的科学、工程问题。然而大模型依然拥有作为技术发明的工具属性,而人与工具协同发展是历史的常态,如同搜索引擎革新了知识获取方式,大模型的应用将重塑“获取答案”和“获得陪伴”的方式,且使其大大简化。

      在实践上,将大模型工具化要求我们以工具观对其进行治理。其要义在于尊重技术发展的客观规律,减少对技术本身的干预,而将规划和治理目标放在技术使用的行为与场景上。正如语言规划重在规划语言生活而不是语言本身(李宇明2022),大模型的主要治理对象也是大模型的研发者、研发要素、使用者、使用行为和使用环境(王春辉2022b)。在治理过程中应认可、正视工具化所带来的益处,尽量规避其风险,促进工具本身的发展。

      基于这样的思想,我们认为,面对大模型,在技术之外有两种重要的治理实践:大模型研发阶段的语言资源治理和大模型投放之后的使用治理。大模型本身也是一种新型语言资源,因而其使用治理在一定程度上也可采用语言资源的视角。

      二、大模型研发中的语言资源治理

      (一)柴语生背后的语言资源

      语言智能基于对大规模语言数据的加工利用而得以实现。语言模型对语言资源的利用能力是其性能的重要指标。自20世纪90年代统计机器学习成为主流后,从机器翻译到语言生成,语言大数据的加工和利用能力与语言智能的应用能力彼此促进(冯志伟,等2023)。

相关文章: