伴随人工智能技术的迅猛发展,伪造手段同样出现了巨大的变化。当前,作为人工智能伪造技术典型实例的深度伪造技术,已属于排名前五的身份欺诈方式。依照专门进行虚假内容识别工具开发的公司DeepMedia的报告,与2022年相比,2023年视频深度伪造数量增长了三倍,语音深度伪造数量更是以八倍的增速猛涨。①应该看到,深度伪造技术拥有双面特性。一方面,深度伪造技术在影视特效、医疗影像等领域可以推动创新应用;另一方面,深度伪造技术也可为不法分子实施名誉侵害、金融诈骗乃至危害国家安全等行为提供技术方法。如果深度伪造技术遭到滥用,甚至还可能引起社会信任体系崩解等多种无法估计的深层次危害。在此背景下,如何在刑事法律层面合理规制深度伪造行为,成为一个亟待解决的问题。 一、人工智能时代深度伪造行为刑法规制的必要性 (一)深度伪造行为的本质属性 深度伪造是近年来新兴的人工智能技术,社会各界对深度伪造的概念及其底层技术逻辑的认识尚不全面。深度伪造行为不仅可能对公民人格权和财产权等法益造成严重侵害,而且可能成为新型犯罪工具而使现有犯罪出现新的行为类型。因为我国民法等前置法以及刑法对涉深度伪造不法行为的规制效果十分有限,所以滥用深度伪造技术的行为事实上已经对现有法律体系形成了重大挑战。为了使理论研究更加具有针对性和现实基础,我们在讨论人工智能时代深度伪造行为刑法规制的相关问题时,首先应当明确并统一深度伪造的概念及其底层技术逻辑。具体而言,“深度伪造”一词的出现最初是源自一场网络社区的恶作剧。2017年年底,网名为“深度伪造”(deepfakes)的用户在Reddit平台上传了AI换脸处理过的色情视频,其将《神奇女侠》某主演的脸庞换到成人影片演员身上。该账号在两个月间发布了几十条类似视频,每条皆有数万点击量。媒体最初报道时普遍采用AI换脸等中性表述,但随着事件渐渐升温,2018年1月美联社的报道首次将“deepfake”作为正式术语,并把它定义成“借助人工智能制作出的虚假视听内容”。深度伪造技术产生于人工智能时代,且是人工智能技术应用的产物。深度伪造技术存在狭义、广义两种定义,狭义深度伪造技术指的就是换脸技术,也即利用深度学习算法把目标人物的面部特征迁移到其他视频中,让其看起来像是在做源人物的动作、说源人物的话。广义深度伪造技术则是指涉及深度伪造的所有技术,含有面部交换、唇形同步、木偶操纵技巧等多种伪造样式。面部交换技术是借助AI提取人物的面部特征,并把它动态迁移到其他人的身体或者视频中。唇形同步技术则能够精准调节人物的口型,让其跟任意输入的语音内容相匹配。木偶大师技术能够实时捕捉操作者的面部表情,把这些表情马上投射到目标人物脸上,由此制造出逼真的实时互动场景。通常情况下,这些技术被组合运用,制造出多维度高度逼真的虚假内容。 深度伪造技术的核心是生成对抗网络模型(GANs)。GANs由生成器和判别器两个人工智能神经网络组成,两者采用零和博弈实现能力的逐次迭代。生成器可接收随机噪声或者特定输入,生成伪制数据。例如,在换脸场景中,生成器会对源人物A的面部特征进行分析,并把它反映到目标人物B的视频里,同时把B的原始表情和动作留存。判别器可以接纳真实数据(如真实名人照片)以及生成器输出的虚假数据,并通过分类器判别输入是否为真实的。其本质上类似于一个“数字鉴伪师”。在早期阶段,判别器通常仅能识别面部边缘模糊等低级特征。随着训练进一步深入,其可察觉微表情不自然、光影逻辑有差错等深层瑕疵。两者通过反复对抗训练,使生成内容真实性快速提升。可以说,深度伪造技术结合了“深度学习”和“伪造”。②需要注意的是,虽然深度伪造技术与Sora③等文生视频技术均是人工智能时代的产物,但两者并不完全相同。深度伪造以GANs为基础,聚焦于对已有内容的篡改替换。其本质是对现实素材的部分重构,技术难点在于特征吻合与融合的自然度。Sora作为扩散模型驱动的文生视频工具,则是从零生成全新动态场景,通过文本指令直接合成包含复杂物理交互的虚构内容,其技术突破在于跨模态理解与长时序连贯性建模。在生成式人工智能迅猛发展的当下,如果说Sora等文生视频技术代表着“创造现实”,那么,完全可以说深度伪造技术代表着“修改现实”。人工智能时代诞生的深度伪造技术,凭借其算法层面的创新性突破,正在对社会认知范式形成颠覆性冲击。该技术通过重构人类感官认知体系,不仅突破了传统伪造技术的真实性边界,而且对数字时代的信任机制造成根本性威胁。深度伪造行为所具备的感官欺骗性与技术普及性特征,已从技术伦理层面跃升为具有严重社会危害性的法律问题。因此,深度伪造行为在本质上构成一种利用技术手段实施的、具有高度欺骗性的“实质伪造”行为,核心刑法属性在于对真实性的严重扭曲和对受刑法保护法益的直接或潜在侵害,其引发的系统性风险亟须通过刑法规制予以回应。 (二)深度伪造行为的社会危害性 深度伪造技术最显著的特征在于其感官层面的真实性欺骗能力,更易造成比文字造假等传统诈骗方式更严重的犯罪后果。根据我国《刑法》第13条的规定,犯罪具有社会危害性、刑事违法性和应受刑罚惩罚性三个基本特征,其中严重的社会危害性是犯罪的本质特征。深度伪造行为可能具有比传统诈骗行为更为严重的社会危害性,因此,通过刑法规制深度伪造行为的必要性愈发凸显。依托于人工智能的强大算力,深度伪造技术已突破人类感官的天然防线,正在重塑“眼见为实”的认知法则。传统伪造内容往往存在可追溯的物理破绽。例如,苏联时期修改历史照片,需人工涂抹背景人物轮廓;好莱坞电影中的换脸特效,常因面部光影与身体投影角度不匹配而露出破绽。人工智能深度伪造生成的虚假内容,却能在视觉、听觉甚至生理反应层面构建起近乎完美的欺骗性。1758年,本杰明·富兰克林写道:“一半的真相往往是一个巨大的谎言。”④深度伪造是这句话在人工智能时代的数字表现形式。这种技术将真实与虚假编织成难以拆解的混合体。2024年韩国发生的“N号房2.0”案件中,犯罪分子利用公开的社交媒体照片,将普通女性的面孔移植到色情视频中,连睫毛抖动的频率都与源人物生理特征一致。2024年香港地区某跨国公司遭遇的AI诈骗案中,骗子通过YouTube公开视频克隆了英国CEO的声纹与微表情,在视频会议中下达转账指令。如果当时财务主管没有注意到背景窗帘褶皱不符合伦敦办公室实景,公司将损失2亿港元。当技术能够以科学精度伪造现实,社会信任的根基便面临前所未有的侵蚀危机。此外,由于视觉信息在人类认知体系里起到了主导作用,深度伪造的欺骗性影响绝非文字欺诈所能企及的。基于人工智能技术的深度伪造技术不仅能篡改语言内容,而且可彻底转变如人物口型或动作态势等信息传递的视觉特征。科拉维塔视觉主导效应实验说明,如果视觉刺激与听觉刺激同时呈现,受试者多数会忽略声音信号,优先去响应视觉方面的信号,即人类感知系统存在“视觉优先”的现象。⑤传播学相关研究证明,人们往往更能记住视觉信息,而容易忘掉听觉等其他信息。误导性视觉内容的迷惑程度远超文字误导,这源于“真实性认知偏差”——因为视听媒介和现实体验更贴近,人们本能地就对其给予更高信任。这种偏差让深度伪造内容更轻易地影响甚至扭曲受众的认知。人工智能时代的技术进步放大了此类认知缺陷,使数字造假拥有了生物学层面的欺骗优势。这种感官层面的真实性欺骗能力不仅突破了人类生物识别的最后防线,而且在认知维度重构了真相的验证机制,最终导致社会信任体系面临系统性解构风险。