0 引言 生成式人工智能(Generative AI,GenAI)需以大量训练数据喂养,训练数据质量愈高训练成效愈佳。诸如文字等作品比非作品数据更宜作为训练数据。我国《生成式人工智能服务管理暂行办法》第7条要求,训练者在训练模型时要保证训练数据来源合法,不得侵害他人知识产权。因《中华人民共和国著作权法》(以下简称《著作权法》)尚无与训练GenAI匹配的简化作品使用机制,使用他人作品训练GenAI须经著作权人许可。奈何训练数据体量大,要求训练者在事前获得许可并不现实,故训练者多未经许可就使用他人作品训练GenAI,导致著作权纠纷频发[1]。因各国尚未就如何化解GenAI训练数据著作权纠纷达成共识,训练者和著作权人均处于不确定状态,致使训练数据的著作权问题隐有阻碍技术发展之势,有必要回应GenAI训练数据的著作权争议,以为各利益相关方提供明确的行为预期。 1 文献综述 现有研究为解决GenAI训练数据著作权争议提供4种方案。一是未经许可使用他人作品训练GenAI是侵权行为。利用作品训练GenAI需复制作品,但现行法律并未豁免此复制行为[2],且人工智能生成内容(AIGC)会挤占训练数据中作品的市场,将不合理损害著作权人合法利益。二是将使用作品训练GenAI的行为置于著作权法调整范围外[3-4]。借鉴商标性使用理念,按是否使公众享受或获取作品独创性表达,可将对作品的使用分为受或不受著作权法调整两种,后者被学者概括为“非表达性使用”[5]或“非作品性使用”[6-7]。故有学者参考日本“非享受性使用”[8]规则,认为使用作品训练GenAI仅利用作品中的事实或思想,不应被著作权法控制。三是以合理使用规则豁免此行为[9-12]。要求训练者事先获得著作权人许可不仅成本高且难度大,还有碍技术发展,故诸多学者借鉴日本、欧盟或美国做法,将使用他人作品训练GenAI的行为定性为合理使用[13]。四是为训练数据包含的作品的著作权人建立补偿机制[14]。使用作品训练GenAI确有使用他人作品,且AIGC还会有损原作市场。为避免挫伤作者群体的创作积极性,有学者主张应补偿被使用作品的著作权人,方案有法定许可[15]、经济补偿金[16]、税收分配[17]等。 现有研究为解决GenAI训练数据的著作权困境提供了多元方案,但并非均可采纳。因训练成本、技术发展和著作权保护间的张力,直接确认侵权的方案一显然难被接受。而采用作品训练GenAI包含一系列复杂的作品使用行为,以“一刀切”方式将其置于著作权控制范围外或定性为合理使用的方案二或三,有优待技术发展而过度限制著作权的倾向,难以调适各方利益。相比而言,方案四更具合理性,但对著作权人的补偿机制存有著作权制度内外之别。基于成本收益的考量,相较著作权制度外的税收分配等策略,本文更倾向于著作权制度内的方案。但著作权制度内的方案仍有诸如法定许可、集体管理等,有待比较抉择。可见,有必要比较著作权内的著作权人补偿机制,探寻GenAI训练数据著作权纠纷的化解之策。 2 研究方法 本文基于利益平衡和激励理论,在剖析GenAI训练数据著作权法困境及其成因后,检视合理使用等制度为何并非解决问题的理想工具,并在分析各相关方利益偏好基础上论证“准法定许可制度”才是“可欲”选择①,最终提出具体的制度设计方案。本文主要运用以下研究方法:一是立足于现行法律,运用规范分析法审视未经许可使用他人作品训练GenAI行为的定性,以及此行为引起的利益冲突,并基于利益平衡理论探寻著作权保护与技术发展间的平衡点;二是通过比较分析法考察合理使用、法定许可、集体管理等制度对著作权人和训练者的利益影响程度,判断何者更可取;三是基于成本收益分析法判断不同方案,以及准法定许可制度设计中的成本与收益情况,试图以较低成本实现较高收益,增强解决方案的可采性。 3 GenAI训练数据著作权侵权困境及成因 未经许可而以他人作品训练GenAI是一系列涉作品使用的行为,当某些行为落入著作权控制范围时易引发侵权纠纷。故需对GenAI训练过程作简要分解,并从现行法角度审视训练过程的侵权情况。 3.1 我国GenAI训练数据的著作权法困境 机器学习算法是GenAI的底层技术,其训练流程通常有数据收集、数据预处理、模型选择、模型训练、模型评估、参数调整和模型部署等步骤。这些步骤分为训练和应用两个阶段,模型部署是应用阶段,其余皆属训练阶段。 训练阶段可分为输入、学习、输出和优化4个环节。 第一,输入环节主要是为将训练数据投喂算法做准备,有数据收集和预处理两个步骤。数据收集就是获取训练数据。数据预处理的目的主要有二:数据清洗,去除数据中的无效值和重复值等;数据标注,在监督学习时为模型提供必要指引。在使用作品训练GenAI时,训练者需先复制大量作品作为训练数据,并对获取到的作品进行清洗、标注和分割,此过程涉嫌著作权侵权。首先,复制作品并将其转换成机器可读形式涉嫌侵害复制权。如Disney & Universal Picture v.Midjourney案中,被告被指控未经许可复制原告作品训练GenAI②。其次,对作品进行汇集,若汇集规则过于随意或常见则可能侵害复制权,反之会侵害汇编权。最后,数据清洗和标注会改动作品,可能侵害保护作品完整权等。 第二,学习环节主要包含模型选择和训练两个步骤,目的是据GenAI具体应用场景选择合适的模型,并让模型学习训练数据完善自身。在学习环节,模型需将训练数据分割为最小Token,以便找到Token间的逻辑、特征、数量等关系,从而能更好地响应指令。此环节虽改动作品,但因通常不传播作品且发生于机器内部,侵权风险较小。