从大数据到人工智能,“算法”背后的可量化、可预测、可“模仿”甚至对人工的可取代都在对电影的创作、生产、发行、营销的各个领域产生影响,也给行业的未来带来丰富的想象。特别是创作方面,艺术的个人化表达通常被认为是以“复制”为代表的机器最难侵入的领地,但人工智能对这一领域的“学习”正在以不可阻挡的趋势发生着。 一、机器学习:人工智能最先进的领域 随着2016年3月谷歌的阿尔法狗(Alpha Go)在围棋对弈上完胜人类,这一曾经只是科幻电影里想象的事物前所未有地逼近了我们的现实。中国的互联网影视公司随后也纷纷跃跃欲试,对外发布或介绍了各自在人工智能方面或正在研发或已初步应用的产品。在一定程度上,可以将这一轮人工智能的浪潮看作是2013年在全球掀起的“大数据”产业浪潮的继续。 一方面是观众能够“享有”或选择的电影量越来越大,另一方面是内容可以触达的观众在规模上越来越大,内容所能依托的视听媒介也变得越来越多。这些“大”和“多”看上去令产业的容量和体量不断扩展,也令积累在电影行业里的可供分析的数据量在不断增大,甚至是几何级地膨胀。但“大数据”面对的重要问题随之而来,“大”就是有意义的吗?在“大”之后,该如何处理和显现出“大数据”的意义、价值和神奇?德国巴伯尔斯贝格大学教授苏珊妮·斯图莫(Susanne Sturmer)博士于2016年在德国举办的“大数据,大电影”(BigData.BigMovie)论坛上曾指出,“不仅仅是收集所有的数据,更重要的是需要以有意义的方法去处理数据,这非常必要,行业因此才能有所突破。”①人工智能(AI)似乎为“大数据”指出了新的方向。目前包括电影行业在内的几乎所有领域的数据来源和内容量都达到了空前水平,无论是学术领域还是工业领域,都将目光投向了大数据的挖掘与知识发现——从海量数据中提取揭示隐含的、先前未知的并具有潜在价值或规律性的信息与知识的过程②。在方法上,则正由数学统计方法向机器学习演进。 机器学习(Machine Learning)是近年来再次大热的人工智能的一种技术手段,也是人工智能的一种研究领域,即从有限的观测数据中学习(或“猜测”)出具有一般性的规律,并将这些规律应用到未观测样本上的方法。深度学习是机器学习的一个子问题,其主要目的是从数据中自动学习到有效的特征表示③,是人工智能最先进的领域。在大数据时代,适应数据分析需求由常规分析向深度分析的转变,智能分析(Intelligent Analysis)成为大数据分析发展的必然趋势,其核心技术是文本智能分析和机器学习。值得一提的是,近年来人工智能得以再次勃兴,很重要的一个原因是因为算力的提升,即图形处理器(Graphics Processing Unit,简称GPU)的技术突破。算力的显著提升,为处理大量的数据提供了可能性,也因此将过去大量基于深度学习的研究成果的落地和演进提供了更大的可能。 人工神经网络(简称神经网络),是一种受人脑神经系统的工作方式启发而构造的数学模型。从生物学角度来讲,人的神经系统是通过神经元的不断传输连接的。它的结构有很多层,这些深层结构使人具有强大的学习能力。与计算机的结构不同,人脑神经系统是一个由生物神经元组成的高度复杂的网络,是一个并行的非线性信息处理系统。人脑神经系统可以将声音、视觉等信号经过多层编码,从最原始的低层特征不断加工、抽象,最终得到原始信号的语义表示。由于神经网络模型一般比较复杂,从输入到输出的信息传递路径一般较长,所以复杂神经网络的学习可看成是一种深度的机器学习,即深度学习。现如今,技术允许我们建造更大、更深的神经网络,这推动了深度学习的新一轮发展,可供机器学习的数据规模也越来越大。 二、机器“阅读”剧本:自然语言处理中的高难度课题 电影的开发工作通常需要制片企业建立专门的部门并配相当数量的编辑团队去阅读大量的剧本,筛选后对可供备选的剧本形成审读报告。而人工智能的神奇很容易让人联想到如果这些审读的工作由计算机来完成会是什么效果。虽然这在目前以及较近的将来仍然是无法实现的,但基于深度学习的人工智能技术在长文本的阅读方面,当下确实已经取得了一些令人可以向更远处眺望的进展。 机器阅读理解是自然语言处理(NLP)研究领域当中的一个重要分支,该领域有一项世界顶尖的赛事,文本理解挑战赛(Stanford Question Answering Dataset),通常被简称为SQuAD,是机器阅读理解领域公认的标准水平测试。这一赛事由斯坦福大学于2016年9月发起,在2018年1月3日以前,人类始终保持着领先的优势,还没有任何一个团队能够设计出一种答题正确率超过人类的算法。然而,微软亚洲研究院自然语言计算组提交的新模型在这一天获得了82.650的精确匹配分数,超过了人类得分82.304。两天后,阿里巴巴的iDST-NLP团队也拿到了82.440的精确匹配分数。微软亚洲研究院院长洪小文在接受媒体采访时谈到:“这对微软和自然语言处理(NLP)研究领域来说,是一个重要的里程碑。计算机文本理解能力首次超越人类,预示着该领域的研究将会有更大的突破。”④这一里程碑的突破是一次质的突破,为机器继续接近人类的阅读理解水平提供了一个积极的信号。 对于人类而言,小学生就能够完成的语言学习过程在计算机上的实现却是十分复杂和困难的。因为人类语言有其特殊性,它是一个离散的、象征性的、绝对的信号系统,这意味着人们可以通过使用不同的方式传达相同的含义,例如演说、手势、信号等。人类大脑对这些符号的编码是持续激活的模式,在这个模式中,符号通过声音和视觉的连续信号实现传输。正是由于其复杂性,使计算机理解人类语言成为了一项艰难的任务。直到20世纪90年代之前,人们还在试图让计算机学会人类语言的规则,从而理解其背后的含义。但由于人们日常使用语言时往往并不严格按照规则,而机器则无法处理偏离规则的内容。后来,人们开始尝试让机器自己进行学习,获取语言知识。发展到今天,自然语言处理领域的研究已经基本达到可以应付单个句子,以及理解句子成分的水平。近十年来,计算机性能的大幅度提升和机器学习理论的兴起使得计算机已经能够编写短新闻、创作诗词,并且能够与人类对话。各大手机及智能电子产品的人工智能语音系统已经可以识别并完成用户的指令,并且能够进行简单的对话与交流。