语言资源视角下的大规模语言模型治理

收藏 |打印|下载word |下载pdf

作者：

饶高琦/胡星雨/易...

作者简介：

饶高琦，男，北京语言大学国际中文教育研究院助理研究员，北京语言大学中国语言文字规范标准研究中心，主要研究方向为计算语言学、语言规划、数字人文，E-mail：raogaoqi@blcu.edu.cn；胡星雨，男，北京语言大学国际中文教育研究院在读硕士研究生，主要研究方向为语法学、计量语言学、汉语史，E-mail：1443389328@qq.com；易子琳，女，北京语言大学国际中文教育研究院在读硕士研究生，主要研究方向为数字人文、语言规划、现代汉语语法，E-mail：2536540850@qq.com（北京 100083）。

原文出处：

语言战略研究

内容提要：

近半年来，柴语生（ChatGPT）等大规模生成式语言模型的应用，引发了全社会的关注和反思。对这种大模型，应以工具观加以正视，认可其技术发展带来的益处，同时尽量规避其风险。对它们的治理，应减少对技术本身的干预，将目标定位于大模型赖以研发的语言资源和投放之后的使用。对大模型研发中的语言资源治理，应着力打破中文数据孤岛：发展以联邦学习为代表的分布式模型构建技术，建立国家知识数据开放机制，尽快健全开放、高效的语言数据交换市场；提倡世界知识中文表达，助推中文大模型研发：尽快实现中文精华知识资源面向网络开放，完善中文概念、术语资源，做大、做全领域中文资源。对大模型使用领域的治理，则因大模型本身也是一种重要的语言资源，故应强调其基础资源地位，从标准化、评测和伦理规制的角度进行。

期刊代号：H1

分类名称：语言文字学

复印期号：2023 年 11 期

关键词：

柴语生语言资源大规模语言模型语言治理　　ChatGPT language resources large language model language governance

字号：大中小

2022年末，以柴语生①为代表的一批基于大规模语言模型的智能应用进入公众视野，并引起了全社会的关注和众多行业的焦虑。然而如同人类历史上所有重要的技术突破，大规模语言模型带来的冲击必须被正视，也应以工具视角审视，进而推动技术本身的发展，以获取红利，并减少实践风险。作为依赖语言数据资源，并以语言服务为主的技术，大规模语言模型的研发依赖语言资源治理的支持，其自身也具有语言资源属性，适用于语言资源治理的诸多侧面。

一、柴语生应用落地与治理需求

（一）柴语生与大规模语言模型

柴语生是2022年11月投放市场的新型聊天机器人，支持多任务连续对话和问答，其特点为：可进行多轮对话、语言自然流畅、会承认错误、能质疑不正确的前提等。②柴语生由大规模语言模型GPT-3.5支持，并在2023年3月升级到GPT-4，其服务也相应升级。GPT全称为生成式预训练转换器模型（Generative Pre-trained Transformer），是一种大规模语言模型（Large Language Model，LLM，以下简称大模型）。典型的大模型还包括BERT③\RoBERTa④、T5⑤、XLNet⑥和悟道⑦等规模不一、技术路线各异的模型。与一般语言模型相比，大模型的训练语料规模巨大，参数急剧膨胀。GPT-3的参数规模达到1750亿，GPT-4已突破万亿，⑧悟道2.0和Switch Transformer则达到了惊人的1.75万亿和1.6万亿⑨。

超大规模的训练数据和参数量，使得大模型产生了知识涌现能力。在面对提问时只需给出几个任务实例，大模型即可通过推理给出举一反三式的回答，且具备将复杂问题拆分开来的步骤推理能力。因此，它在阅读、答问、摘要、翻译等173项语言相关测试上均有优异表现，甚至在编程和画图上也可圈可点（Wei et al.2022；Nanda et al.2023）。

（二）大模型落地引发使用热潮和行业反思

柴语生上线仅5天，用户数量就突破100万，发布后两个月达到1亿，成为史上用户量增长最快的应用程序。但柴语生收集实时信息的能力较弱，且中文知识能力显著弱于英文，更会经常出现“一本正经地胡说八道”的问题。虽然如此，依然有众多用户用它写作。用户给出大致框架和主题，柴语生即可生成文章，其流畅程度强于一般写作者。用户只需在此基础上简单修改即可使用，大大提高了写作效率。

众多行业都在不同程度上感受到了来自大模型的冲击和挑战。教育行业对大模型的滥用提出不少担忧与顾虑，认为它干扰了教学和科研秩序。美国在线教育平台的调研数据显示，89%的美国大学生使用柴语生写作业，48%的学生借助它完成考试。⑩乔姆斯基批评柴语生正在破坏教育系统，认为它本质上是一个高科技剽窃系统。(11)但是，也有许多人主张拥抱新技术。沃顿商学院有老师要求学生必须使用柴语生完成作业，认为正确使用人工智能工具有助于学生思维能力提高。(12)

在学术界，包括《自然》（Nature）在内的一些期刊规定大模型不得被列为文章作者，仅可出现在致谢或参考文献中。《暨南学报（哲学社会科学版）》与《天津师范大学学报（基础教育版）》等刊物要求暂不将语言模型工具列为单独或共同署名作者。(13)张华平等（2023）指出，科研工作者使用柴语生等工具，有助于提高科研效率，但可能导致文章质量和透明度降低。

面对柴语生和深度合成技术引发的冲击和争议，国家互联网信息办公室、工业和信息化部、公安部于2022年11月联合发布《互联网信息服务深度合成管理规定》，规范了包括语言合成在内的深度合成技术的使用规范，严格要求生成内容必须合法合规，并对使用场景进行约束。(14)

（三）大模型的治理观

大模型与其他发明的不同之处，是人类第一次无法完全理解其具体运行机制。大模型的优异性能很大程度上依靠大数据中的涌现效应。这一现象如同黑盒遮蔽了其内部工作路径，造成了其结果的不可解释和一定程度的不可控制。这是前文所述各种伦理焦虑的根源。其本质是语言资源及其使用方式带来的科学、工程问题。然而大模型依然拥有作为技术发明的工具属性，而人与工具协同发展是历史的常态，如同搜索引擎革新了知识获取方式，大模型的应用将重塑“获取答案”和“获得陪伴”的方式，且使其大大简化。

在实践上，将大模型工具化要求我们以工具观对其进行治理。其要义在于尊重技术发展的客观规律，减少对技术本身的干预，而将规划和治理目标放在技术使用的行为与场景上。正如语言规划重在规划语言生活而不是语言本身（李宇明2022），大模型的主要治理对象也是大模型的研发者、研发要素、使用者、使用行为和使用环境（王春辉2022b）。在治理过程中应认可、正视工具化所带来的益处，尽量规避其风险，促进工具本身的发展。

基于这样的思想，我们认为，面对大模型，在技术之外有两种重要的治理实践：大模型研发阶段的语言资源治理和大模型投放之后的使用治理。大模型本身也是一种新型语言资源，因而其使用治理在一定程度上也可采用语言资源的视角。

二、大模型研发中的语言资源治理

（一）柴语生背后的语言资源

语言智能基于对大规模语言数据的加工利用而得以实现。语言模型对语言资源的利用能力是其性能的重要指标。自20世纪90年代统计机器学习成为主流后，从机器翻译到语言生成，语言大数据的加工和利用能力与语言智能的应用能力彼此促进（冯志伟，等2023）。

共12条结果上一页12 3 4 5 6 下一页全部展开

赵荫棠音韵学藏书台北目睹记

冯蒸

语言文...1997年第03期
《五方元音》与《元韵谱》

龙庄伟

语言文...1997年第03期
用“本校法”看《汉语大词典》所存在的问题...

郭康松

语言文...1997年第03期
新观念

俞剑

语言文...1997年第03期
早期处置式的表现形式及其底蕴

杜敏

语言文...1997年第03期

语言资源视角下的大规模语言模型治理

相关文章：