来源期刊

刊名：图书馆学情报学

主办单位：中国人民大学书报资料中心

期次：2026年04期

生成式人工智能训练数据的准法定许可制度

引用| 收藏 |打印|下载word

作　　者：

魏远山

作者简介：

魏远山，博士，广东外语外贸大学法学院讲师，广东外语外贸大学地方立法研究基地研究人员，E-mail：wys_victory＠gdufs.edu.cn。

原文出处：

图书馆论坛

内容提要：

未经许可使用他人仍处于保护期的作品训练生成式人工智能所引起的训练数据著作权法问题，表层原因是训练者低成本便捷使用作品的需求与既有作品许可使用机制脱节，深层次原因是技术发展与著作权保护之间的张力，根本原因是生成式人工智能对人类作者的替代效应。为训练生成式人工智能设置合理使用规则的观点，或未细致剖析训练原理或忽略合理使用规则的逻辑前提，且机械的类比和狭隘的视野有过度限制著作权人合法权益之嫌，并非理想方案。将现行规则加以改造的准法定许可制度反而更为可取：允许训练者以公告方式简化和降低使用作品训练生成式人工智能的程序和成本；在保证著作权人可获得合理报酬的同时，赋予其将作品从训练数据中移除的自由。为确保准法定许可制度可有效化解训练数据的著作权困境，应明确训练者公告拟使用作品的方式及期限，保障著作权人知情权；搭建著作权人异议平台并确定异议处理程序，确保著作权人退出权的实现；由著作权行政管理部门参与确定作品使用费支付标准，在协调训练者和著作权人利益基础上实现后者的获酬权。

期刊代号：G9

分类名称：图书馆学情报学

复印期号：2026 年 04 期

关键词：

生成式人工智能训练数据著作权合理使用准法定许可

字号：大中小

　　0 引言

　　生成式人工智能(Generative AI，GenAI)需以大量训练数据喂养，训练数据质量愈高训练成效愈佳。诸如文字等作品比非作品数据更宜作为训练数据。我国《生成式人工智能服务管理暂行办法》第7条要求，训练者在训练模型时要保证训练数据来源合法，不得侵害他人知识产权。因《中华人民共和国著作权法》(以下简称《著作权法》)尚无与训练GenAI匹配的简化作品使用机制，使用他人作品训练GenAI须经著作权人许可。奈何训练数据体量大，要求训练者在事前获得许可并不现实，故训练者多未经许可就使用他人作品训练GenAI，导致著作权纠纷频发[1]。因各国尚未就如何化解GenAI训练数据著作权纠纷达成共识，训练者和著作权人均处于不确定状态，致使训练数据的著作权问题隐有阻碍技术发展之势，有必要回应GenAI训练数据的著作权争议，以为各利益相关方提供明确的行为预期。

　　1 文献综述

　　现有研究为解决GenAI训练数据著作权争议提供4种方案。一是未经许可使用他人作品训练GenAI是侵权行为。利用作品训练GenAI需复制作品，但现行法律并未豁免此复制行为[2]，且人工智能生成内容(AIGC)会挤占训练数据中作品的市场，将不合理损害著作权人合法利益。二是将使用作品训练GenAI的行为置于著作权法调整范围外[3-4]。借鉴商标性使用理念，按是否使公众享受或获取作品独创性表达，可将对作品的使用分为受或不受著作权法调整两种，后者被学者概括为“非表达性使用”[5]或“非作品性使用”[6-7]。故有学者参考日本“非享受性使用”[8]规则，认为使用作品训练GenAI仅利用作品中的事实或思想，不应被著作权法控制。三是以合理使用规则豁免此行为[9-12]。要求训练者事先获得著作权人许可不仅成本高且难度大，还有碍技术发展，故诸多学者借鉴日本、欧盟或美国做法，将使用他人作品训练GenAI的行为定性为合理使用[13]。四是为训练数据包含的作品的著作权人建立补偿机制[14]。使用作品训练GenAI确有使用他人作品，且AIGC还会有损原作市场。为避免挫伤作者群体的创作积极性，有学者主张应补偿被使用作品的著作权人，方案有法定许可[15]、经济补偿金[16]、税收分配[17]等。

　　现有研究为解决GenAI训练数据的著作权困境提供了多元方案，但并非均可采纳。因训练成本、技术发展和著作权保护间的张力，直接确认侵权的方案一显然难被接受。而采用作品训练GenAI包含一系列复杂的作品使用行为，以“一刀切”方式将其置于著作权控制范围外或定性为合理使用的方案二或三，有优待技术发展而过度限制著作权的倾向，难以调适各方利益。相比而言，方案四更具合理性，但对著作权人的补偿机制存有著作权制度内外之别。基于成本收益的考量，相较著作权制度外的税收分配等策略，本文更倾向于著作权制度内的方案。但著作权制度内的方案仍有诸如法定许可、集体管理等，有待比较抉择。可见，有必要比较著作权内的著作权人补偿机制，探寻GenAI训练数据著作权纠纷的化解之策。

　　2 研究方法

　　本文基于利益平衡和激励理论，在剖析GenAI训练数据著作权法困境及其成因后，检视合理使用等制度为何并非解决问题的理想工具，并在分析各相关方利益偏好基础上论证“准法定许可制度”才是“可欲”选择①，最终提出具体的制度设计方案。本文主要运用以下研究方法：一是立足于现行法律，运用规范分析法审视未经许可使用他人作品训练GenAI行为的定性，以及此行为引起的利益冲突，并基于利益平衡理论探寻著作权保护与技术发展间的平衡点；二是通过比较分析法考察合理使用、法定许可、集体管理等制度对著作权人和训练者的利益影响程度，判断何者更可取；三是基于成本收益分析法判断不同方案，以及准法定许可制度设计中的成本与收益情况，试图以较低成本实现较高收益，增强解决方案的可采性。

　　3 GenAI训练数据著作权侵权困境及成因

　　未经许可而以他人作品训练GenAI是一系列涉作品使用的行为，当某些行为落入著作权控制范围时易引发侵权纠纷。故需对GenAI训练过程作简要分解，并从现行法角度审视训练过程的侵权情况。

　　3.1 我国GenAI训练数据的著作权法困境

　　机器学习算法是GenAI的底层技术，其训练流程通常有数据收集、数据预处理、模型选择、模型训练、模型评估、参数调整和模型部署等步骤。这些步骤分为训练和应用两个阶段，模型部署是应用阶段，其余皆属训练阶段。

　　训练阶段可分为输入、学习、输出和优化4个环节。

　　第一，输入环节主要是为将训练数据投喂算法做准备，有数据收集和预处理两个步骤。数据收集就是获取训练数据。数据预处理的目的主要有二：数据清洗，去除数据中的无效值和重复值等；数据标注，在监督学习时为模型提供必要指引。在使用作品训练GenAI时，训练者需先复制大量作品作为训练数据，并对获取到的作品进行清洗、标注和分割，此过程涉嫌著作权侵权。首先，复制作品并将其转换成机器可读形式涉嫌侵害复制权。如Disney & Universal Picture v.Midjourney案中，被告被指控未经许可复制原告作品训练GenAI②。其次，对作品进行汇集，若汇集规则过于随意或常见则可能侵害复制权，反之会侵害汇编权。最后，数据清洗和标注会改动作品，可能侵害保护作品完整权等。

　　第二，学习环节主要包含模型选择和训练两个步骤，目的是据GenAI具体应用场景选择合适的模型，并让模型学习训练数据完善自身。在学习环节，模型需将训练数据分割为最小Token，以便找到Token间的逻辑、特征、数量等关系，从而能更好地响应指令。此环节虽改动作品，但因通常不传播作品且发生于机器内部，侵权风险较小。

共13条结果上一页12 3 4 5 6 下一页全部展开

智慧养老背景下老年人数字健康素养框架构建...

曹高辉

图书馆...2026年第01期
基于机器学习的“从0到1”型技术融合预测方...

吕璐成

图书馆...2026年第01期
基于潜在影响力预测和多源信息融合的新兴技...

张甜

图书馆...2026年第01期
超越文本中心主义：多模态技术驱动下的中文...

刘炜

图书馆...2026年第01期
交互式数字叙事重塑文化遗产：理论溯源、生...

吴丹

图书馆...2026年第02期

来源期刊

生成式人工智能训练数据的准法定许可制度

相关文章：