一、问题的提出 ChatGPT、DeepSeek等生成式人工智能可以根据用户的提示词生成文字、图片、视频等内容,生成的内容可能与他人享有著作权的作品相似,由此引发了一系列人工智能生成内容(Artificial Intelligence Generated Content,AIGC)的著作权侵权诉讼。基于“接触+实质性相似”著作权侵权判断标准,系列诉讼的原被告就AIGC是否与原告作品构成实质性相似展开激烈辩论。原告通常主张生成式人工智能在模型训练过程中存储了原作品的压缩副本,在模型输出的过程中对不同压缩副本进行了拼贴,其生成内容是各种具体表达拼贴的结果。在“Andersen v.Stability AI案”①中,原告称“被训练图像以压缩副本的形式存储于模型中”,而生成式人工智能所生成的新图像“完全基于‘训练图像’,是Stable Diffusion(一种AI绘画生成工具)在组合特定输出时从特定图像中提取的衍生作品。归根结底,它只是一个复杂的拼贴工具”。被告则认为,模型训练得到的是反映被训练作品(集)风格的模型参数,模型输出则是风格模仿的结果,而风格不受著作权法保护。② 国内外司法机关对此类诉讼持有截然不同的判定思路。美国地方法院在“Andersen v.Stability AI案”中,基本遵循了被告的抗辩思路,认为原告关于模型训练的技术分析缺乏事实依据,同时也缺乏证据证明模型输出是基于原作品的拼贴作品。我国杭州中级人民法院于2024年年末裁判的一起与AI相关的案件也基于技术分析,主张模型训练挪用的是被训练作品中的思想情感、语言特征、特色风格等不受著作权法保护的要素,并无证据证明模型输出挪用了原告作品的独创性表达,由此不构成直接侵权。③而2024年年初广州互联网法院在“AI第一案”中则直接略过技术分析,基于“接触+实质性相似”著作权侵权判断标准,采用抽象分离法认定部分AIGC与原作品高度相似,剩余部分则是在保留原作品独创性表达的基础上形成了新的特征,由此侵犯了原作品的复制权与改编权。值得注意的是,广州互联网法院以信息网络传播权能够为复制权、改编权涵盖为由,搁置了对是否侵犯信息网络传播权的判断,但又认定网络服务提供者应当承担停止侵权责任。④ 实践中的冲突也引发了学界关于AIGC是否侵犯著作权以及侵犯何种著作权的讨论。基于研究旨趣,大致可以分为技术(过程)主义和外观(结果)主义。前者试图深入生成式人工智能模型训练、输出的技术原理,就生成式人工智能模型中存储的是被训练作品的压缩副本还是反映被训练作品风格的模型参数、模型输出是基于压缩副本的拼贴还是基于模型参数的“插值”等技术问题展开研究。后者则是略过技术分析,将AIGC客观上可能侵犯著作权作为研究前提,转而重点讨论服务提供者的过错及注意义务。技术主义思维的优势在于,将著作权侵权判定这一法律问题技术化,能够一劳永逸地规避未来所有侵权诉讼中作品的实质性相似比对。技术主义思维热衷于使用拼贴机/风格模拟机二分法。换言之,如果生成式人工智能被定义为拼贴机,则所有生成内容都或多或少复制了被训练作品的具体表达;反之,如果生成式人工智能被定义为风格模拟机,则所有生成内容都是与被训练作品思想相似的新作品。但技术主义思维的有效性值得怀疑,特别是多数研究都认为生成式人工智能是风格模拟机这一观点值得商榷。一方面,我们如何声称类似过去的复印件是拼贴机,而生成式人工智能就是风格模拟机?即从技术上准确划分拼贴机和风格模拟机是否可能?另一方面,我们如何声称风格模拟机挪用的风格就是不受著作权法保护的思想,而不会是具体表达?即从著作权法上准确区分风格和表达是否可能?外观主义则是将AIGC置于人类创作的背景下,即将AIGC客观上构成侵犯著作权(具有实质性相似)作为假设条件,只分析服务提供者的主观过错。据此,外观主义者既没能很好地质疑大多数技术主义者关于生成式人工智能是风格模拟机的比喻,也没能从技术和法律层面提供AIGC侵犯著作权的主客观判断标准。 本文首先梳理了产学界和司法实践中关于AIGC的著作权侵权判断标准争议,并说明各方如何聚焦技术主义思维展开是否侵犯著作权以及侵犯何种权利的辩论;其次,从技术和法律层面对拼贴机/风格模拟机二分法进行反驳,质疑技术主义思维的有效性;最后,提出回归法律评价的替代理念,并基于该理念提出AIGC的著作权侵权判断标准。 二、在思想与表达之间:人工智能生成内容的著作权侵权争议 1.缺陷型输出侵犯著作权还是创作巧合? 缺陷型输出是与理想型输出相对的概念,指因语料库选择不恰当或算法设计不合理而导致模型输出高度相似的内容,产学界以“模型记忆”来命名这一现象,机器学习技术领域则将其视为过度拟合的产物。[1]关于缺陷型输出是否侵犯著作权的问题,学界和司法实践都存在较大争议。否定侵权的研究从偶然创作、技术缺陷两个角度对其进行“辩护”。从前一角度看,生成式人工智能生成与其训练作品实质性相似的少数内容,可能是纯粹技术意义上的巧合,不侵犯著作权。从后一角度看,生成式人工智能只有在如“模型记忆”等程序错误的情况下才会输出实质性相似内容,而在服务提供者尽量避免“记忆”发生的前提下,著作权人很难通过简单的提示词引导其生成实质性相似内容,因而无法认定为侵犯了信息网络传播权。[2]如,在“《纽约时报》诉OpenAI案”⑤中,被告辩称原告提供的侵权证据(ChatGPT生成近乎雷同的新闻内容)是通过“雇用了某种‘提示工程师’,经过数千次尝试,诱使聊天机器人犯下这种违规行为”而产生的结果。被告这一表述似乎旨在说明,在用户正常使用的情况下,生成式人工智能很难“逐字逐句”输出相同内容,不应将其视为著作权侵权行为。肯定缺陷型输出侵犯著作权的观点,则是从服务提供者的注意义务角度出发,认为服务提供者只有在违反注意义务的情形下才承担著作权侵权责任,而违反注意义务通常表现为未能妥善处理好技术缺陷。有观点指出,因违反“现有技术水平”标准而导致生成实质性相似内容,应当承担著作权侵权责任。[3]广州互联网法院对“AI第一案”的判决则是以“设置投诉举报机制”“潜在风险提示”“添加AI生成显著标识”作为注意义务。换言之,将注意义务关联到技术问题时,缺陷型输出侵犯著作权的问题就变成服务提供者主观过错认定问题。 缺陷型输出并不总是因为技术缺陷,多数情形下与模型训练的数据集有关。实证研究表明,如果将复制标准定义为“生成图像中包含与训练图像中完全相同的内容,忽略数据增强可能导致的细微变化”,则复制发生概率与数据集的大小成反比,与训练集中数据点的重复数量以及提示的数量成正比,这在较先进的图像生成扩散模型中同样如此。[4]换句话说,缺陷型输出既可以描述为客观层面的模型的技术特征,也可以描述为主观层面的模型的技术缺陷,重要的是如何从法律层面看待这一现象。支持缺陷型输出不侵犯著作权的观点通常将“模型记忆”现象视为一种极小概率的偶然事件,就像人类也可能在未接触原作品的情况下创作出一模一样的“莎士比亚作品”。即使著作权人确实提供了生成式人工智能精确复制的证据(如“《纽约时报》诉OpenAI案”),也会被描述为通过复杂提示“诱骗语言模型吐出随机记忆的文本”。[5]如果缺陷型输出是新型技术的客观特征,赋予开发者人为干预的义务既无效率也不公正。支持缺陷型输出侵犯著作权的观点则是将导致模型缺陷型输出风险的各类因素归为开发者的过错,开发者有义务解决这类技术缺陷,否则将承担侵权责任。两种观点看似处于光谱的两个极端,但缺陷型输出的极小概率和用户“诱骗”行为在某种程度上是在为开发者的过错抗辩,从法律角度分析开发者的过错似乎比纯粹的、“一刀切”似的技术分析更具有可行性。