1.背景 马克·斯蒂德曼(Mark Steedman)①与深度学习核心算法的提出者杰弗里·辛顿(Geoffrey Hinton)是爱丁堡大学的博士同窗,师从英国认知科学家克里斯托·朗格-希金斯(Christopher Longuet-Higgins),之后分别成为计算语言学与人工智能领域的领军人物。自ChatGPT②诞生以来,基于深度学习的大语言模型(large language model,LLM)对语言学(尤其是计算语言学)的研究范式产生了巨大的冲击。大语言模型是否会颠覆现代语言理论?语言学工作者应该如何看待及应对大语言模型的冲击?2024年圣诞节前夕,我们就若干相关问题采访了马克·斯蒂德曼教授。他深入大语言模型的工作原理和本质,阐明以下观点:1)大语言模型的语言能力与传统语言学没有关系;2)与传统语言学中的语义不同,大语言模型表征的是一种语言上的关联性,关联性不支持单向推理;3)乔姆斯基的普遍语法,本质上是对语义问题的探讨,但他低估了大语言模型的生成能力;4)大语言模型所展现的语言理解能力更像是Eliza效应的再现,大语言模型未来的发展是融合符号主义与联结主义的混合模型。 2022年11月,ChatGPT横空出世,席卷科技与产业界,生成式人工智能以前所未有之势改变了各学科领域。大语言模型对语言学和计算语言学的研究范式也产生了巨大的冲击。2023年3月8日,诺姆·乔姆斯基(Noam Chomsky)与剑桥大学语言学教授伊恩·罗伯茨(Ian Roberts)、科技公司Oceanit人工智能总监、哲学家杰弗里·瓦图穆尔(Jeffrey Watumull)在《纽约时报》上联名发表特约文章(Chomsky et al.2023)。他们强调,人工智能(AI)和人类在思考方式、学习语言与生成解释的能力,以及道德思考方面,都有极大的差异,并提醒读者,如果ChatGPT式机器学习程序继续主导人工智能领域,那么人类的科学水平以及道德标准都可能因此而降低。AI领域权威杰弗里·辛顿在2023年10月7日参加麻省理工学院CBMM中心智能论坛以及2024年4月8日在都柏林大学获颁尤利西斯奖章时,都发表了针对乔姆斯基的尖锐批评。辛顿坚持认为语言可以通过学习获得,现代人工智能,尤其是大型神经网络,能够从海量数据中学习语言的结构与意义,完全不需要先天的语言结构。这一观点与乔姆斯基的“刺激贫乏”(poverty of stimulus)论③形成了鲜明的对立。 2024年10月8日,辛顿因其在深度学习上的成就获得诺贝尔物理学奖,再次引发学界对“乔辛之辩”的思考。这是理论的碰撞,更是两种思维方式的对抗:辛顿代表了数据驱动的联结主义(connectionism),而乔姆斯基则代表了基于逻辑的符号主义(symbolism)④。争论涉及下列问题。 1)大语言模型是否真的是一种语言理论?是否会是对现代语言理论的一种颠覆?或者是人类探索语言奥秘的另一条路径? 2)大语言模型在语言理解和生成方面表现出杰出的性能,似乎在逼近通过“图灵测试”,那么它离通用人工智能(artificial general intelligence,AGI)究竟还有多远?人类是否需要严肃地将人工智能看作一种新个体的存在? 3)传统的语言学理论和计算语言处理方法是否已经穷途末路?在大语言模型时代,应该如何继续语言学理论和计算方法的研究? 针对上述问题,我们有幸采访到爱丁堡大学信息学院教授马克·斯蒂德曼。他与博士同门辛顿本科背景相同,均为心理学专业人工智能博士,毕业时都因遭遇“AI寒冬”⑤从事了多年其他方向研究,之后才再次回到人工智能方向⑥。2018年,斯蒂德曼获国际计算语言学会终身成就奖,辛顿则因对机器学习的贡献获图灵奖。相似的学术背景、学术经历,同样的泰斗地位,就上述问题而言,斯蒂德曼可能是除了辛顿之外最值得求教的学者之一。 2024年圣诞节前夕,我们完成了这次采访,内容包括大语言模型的基本原理,乔辛之辩,大语言模型的涌现特征、缺陷,以及未来趋势等若干话题。现整理如下,并添加注释,以飨读者。 2.关于大语言模型 满海霞、陈鹏(以下简称“满陈”):我们先从主流语言学家最关注的一个问题谈起吧。斯蒂德曼教授,相比传统的语言学模型,大语言模型有何不同? 马克·斯蒂德曼(以下简称“斯蒂德曼”):对于这个问题,最简单的回答就是:二者实际上无法比较! 尽管大语言模型生成的文本完全忠实于所训练语言的语法,但是其工作原理并未受益于任何语法,与任何语法都没有关系。大语言模型与其他的计算语言模型、与传统的语言学理论在工作原理上差别都非常大。我们可以把大语言模型大致想象成一种编码(或者非严格意义上的“记忆”)过程,它们对所训练的文本数据进行编码和存储,但是这种编码和存储的方式与以往的计算语言模型完全不同,具有“内容可寻址”(content-addressable)的特征。