2023年12月6日,Google兑现了5月在网络开发者年会(I/O)上的承诺,正式推出多模态模型Gemini 1.0,并在演示视频中以实时视频语音互动的形式演示了模型的惊人能力,包括动态识别视频中鸭子简笔画、手势和追踪杯中小球等。不过,随即演示视频便被爆出“造假”,官方在回应中承认演示视频的确经过了剪辑,Gemini实现多模态交互需要经过多次提示和调试,与演示视频中的流畅展示有所差异。尽管如此,开发者们仍普遍认为,Gemini已经展现出较强的理解、推理、创作和实时互动能力。这一造假事件从侧面反映出人们长久以来对通用人工智能(Artificial General Intelligence,AGI)的期待。可以说,2022年末OpenAI公司对话式人工智能(AI)模型ChatGPT(Chat Generative Pre-trained Transformer)的发布,带来了AI在自然语言处理领域的技术突破与全球范围内的广泛应用,也开启了一条沿着综合视听多模态方向演进的AGI探索之路。 ChatGPT取得的成绩推进了国内外生成式AI(Generative AI)研究与应用上的爆发式增长,基于神经网络的AI在各个领域开始应用,也为影视行业带来深刻变革。一方面,AIGC的发展加大了影视从业者对失业的担忧,好莱坞编剧甚至为了抵制生成式AI软件在剧本创作中的运用而进行了集体罢工;另一方面,AI图像信号处理器(Image Signal Processor,简称ISP)、AI虚拟演员等开始全方位介入制片和前期拍摄环节,AI视频去老软件Vanity AI、Metaphysic Live,AI修复电影软件CVPR 2023等也被应用到CG特效、画面修复、宣发等电影后期制作环节。除此之外,AIGC技术的发展,使得AI自动生成电影成为可能。其中既有AI取代影视行业人类工作角色参与制作的电影,如2023年2月上映的第一部由AI编剧和导演的短片《安全地带》(The Safe Zone);也有基于生成对抗网络(Generative Adversarial Network,简称GAN)或扩散模型(Diffusion Model)等神经网络完全由AI生成的电影,如7月发布在社交媒体上的科幻电影《创世纪》(Trailer:Genesis)的预告片。 在AI对影视各领域的广泛参与中最为关键的是,GPT-4V、MM-Vid、Gemini等多模态AI模型逐渐展现出一定的综合视听能力,更有一批AI模型在技术迭代中实现了文生视频、图生视频等新的功能。这些能力对于基于深度学习技术的生成式AI而言,在以神经网络为代表的深度学习与内容生成的技术迭代中至关重要。在艺术创作领域,生成式AI展现出AI作为一种创意主体的可能性,即在深度学习的过程中,AI利用生成模型等方式不断生成创意,在理解生成内容的基础上,和人类共同成为艺术创作的双主体。包括视频生成在内的人机共创需要人类与AI之间变为共同创作艺术品的合作关系,而不再是创意主体与创作工具之间的从属关系。这种全新的艺术生产方式,不仅会对电影及影视行业产生影响,还将深刻改变人类现有的媒介观念和艺术观念。 一、人机共创:从机器学习到神经网络模型 ChatGPT是基于Transformer神经网络架构的生成式AI模型,其核心逻辑是通过无监督学习(Unsupervised Learning)在庞大的语料库中捕捉语言结构和上下文关系,使得模型能够生成自然、连贯的文本回应。ChatGPT在自然语言处理任务(Natural Language Processing,简称NLP)领域的卓越表现体现出神经网络在生成式任务中的明显优势,以及在生成式模型的发展中对神经网络结构的强烈依赖。 而事实上,在依赖于深度学习和神经网络的生成式AI介入之前,更传统的机器学习技术就曾在影视行业的运动捕捉、场景生成、音效处理等领域发挥过重要作用。2019年,数字王国(Digital Domain)公司凭借《复仇者联盟3:无限战争》(Avengers:Infinity War)中的数字化人物“灭霸”获得了第17届美国视觉效果协会奖(VES)“最佳电影角色视觉效果奖”,而其最大的创新就是使用了一款名为Masquerade的复杂机器学习软件,可以利用算法在低质量的普通渲染基础上生成非常精细的高分辨率的面部数据①。到了《复仇者联盟4:终局之战》(Avengers:Endgame),团队再次更新自动化流程,缩短“灭霸”面部模型生成时间,并在“老年美国队长”的拍摄中通过基于机器学习的深度合成、纹理替换等方式来实现角色的老化,而非完全使用纯CG制作或特效化妆②。与《复仇者联盟4:终局之战》一同获得第92届奥斯卡金像奖“最佳视觉效果”提名的影片《爱尔兰人》(The Irishman)同样使用了机器学习等人工智能技术完成对演员特定年龄视觉效果的塑造,工业光魔(Industrial Light and Magic,简称ILM)公司开发了一款名为ILM Facefinder的软件,利用人工智能筛选演员在以往表演中与渲染场景数据相匹配的图片,从而为演员创建数字替身,以便将演员的视觉效果转化为电影中每个特定场景的目标年龄③。 时至今日,“角色老化/去老化”“CG人物”等数字化特效,在生成式AI的加持下,已可以实现完全的自动化。2023年1月,MARZ公司推出视觉特效软件Vanity AI,成为首个面向好莱坞视觉特效的完全自动化、端到端人工智能解决方案,该方案整合了生成式AI、计算机图形学和计算机视觉等技术,可以在大约3分钟内完成一个镜头的高端2D老化、去老化、美容、假发和假体修复服务④。与之类似,2023年1月,生成式AI代表公司Metaphysic被指定为电影《这里》(Here)的唯一AI提供商,在电影拍摄中使用Metaphysic Live等技术工具实现现场演员表演驱动的实时超真实换脸和去老化,帮助导演、演员和制片人实时查看并及时调整,缩短了后期制作修复和现场化妆的时间,最终使汤姆·汉克斯(Tom Hanks)在电影中呈现更年轻的样貌⑤。6月,电影《传说》也官宣将借助AI技术重现27岁的成龙形象。在CG特效领域,Wonder Dynamics公司的AIGC视频特效处理工具Wonder Studio于2023年7月结束封闭测试,面向所有人开放,该工具能够使用户一键完成CG角色对演员的替换,并完成动作捕捉、生成遮罩、匹配姿态表情、摄影机追踪和调整灯光效果等一系列工作。更重要的是,Wonder Studio可以导出生成视频过程中的各种数据,以便用户集成到现有的视效预览和工作流中。