如何测试ChatGPT的语义理解与常识推理水平？　　

收藏 |打印|下载word |下载pdf

作者：

袁毓林

作者简介：

袁毓林，澳门大学人文学院中国语言文学系教授（澳门 999078）；北京大学中文系/中国语言学研究中心，E-mail：yuanyl@pku.edu.cn（北京 100871）。

原文出处：

语言战略研究

内容提要：

ChatGPT等大语言模型在语义理解和常识推理方面表现优秀，其技术奥秘在于模型开发者在对词语进行向量表示时，遵循分布式语义学原理，采用了“嵌入”这种代数方法。但是，经典的测试语言运用等智能水平的“图灵测试”，难以识别欺骗和回避等作弊手段，因此，计算机科学家设计了“新图灵测试”，其中的威诺格拉德模式挑战与语言学关系密切。这一模式以代词消歧为测试点设计句子对和问题，但是经过大规模语料训练的语言，模型可以凭借词汇上的统计相关性，而不是靠真正理解句子的意义来给出正确答案。为克服这一缺陷，学者们又发展出WinoGrande数据集，提高了数据的规模和难度，确保它们无法通过网络搜索等手段来得到正确答案。我们用威诺格拉德模式设计了无偏向双重句子对测试ChatGPT，展示了大语言模型在语义理解和常识推理方面已达到接近人类的水平。当然，从具身模拟假说来看，大语言模型不可能像人一样富有体验性地理解人类自然语言。最后，我们呼吁：语言学家应该积极参与构建WinoGrade测试集之类的工作，在人工智能时代扩展自身的学术研究领域。

期刊代号：H1

分类名称：语言文字学

复印期号：2024 年 05 期

关键词：

ChatGPT 大语言模型新图灵测试威诺格拉德模式挑战 WinoGrande数据集　　ChatGPT large language models semantic understanding and common-sense reasoning (New)Turing Test Winograd Schema challenge WinoGrande dataset

字号：大中小

一、引言：大语言模型给语言学带来的挑战与机会

照理说，语言学家应该是欢迎语言技术的进步与飞跃发展的，但是当人工智能聊天机器人ChatGPT风靡全网、风光无限时，不少语言学家又感到危机空前，因为ChatGPT等大语言模型（large language model，LLM）在语言理解与生成方面功能强大，并且几乎绕开了当代主流的语言学理论与方法（详见Piantadosi 2023）。这于有形无形中都是在向语言学施压。对此，比较敏感的语言学者是心怀戒备与恐惧的。其实，十几年前，“没有语言学的计算语言学”就已成为许多语言学家的心头之痛；对此，国际自然语言处理学界也大声呼吁过：让语言学重新回到计算语言学中，并且成为自然语言处理的支撑性学科（详见Wintner 2009）。只是彼时的自然语言处理系统水平不太高，还不足以显示语言学对于语言处理技术几无用处。现在情况不一样了，能够聊天、答问、写作甚至解数学题、编程序、写代码的ChatGPT就摆在大家面前，没有办法视而不见！怎么办？一种乐观主义的想法是“天生我材必有用”，ChatGPT等大语言模型既然会给语言学造成危机，那么一定也会给语言学带来某种机会！是的，危中必有机，天无绝人之路；在大语言模型时代，语言学一定是挑战与机会并存的，一切端看我们怎么应对。

本文拟从面向大语言模型的语义理解和常识推理的测试集的构建与应用的角度，来探讨大语言模型时代语言学如何摆脱困境、突出重围，争取有所作为，让语言学稳固地自立于当代科学技术之林。第二节简介ChatGPT等大语言模型在语义理解和常识推理方面的优秀表现，概要地说明它们的工作流程和技术原理，特别是其中基于分布式语义学的词语的向量表示。第三节简介经典的检验机器是否具有智能的“图灵测试”及其缺陷，特别介绍作为其替代方案的“新图灵测试”及其4个小类的测试内容与目标。第四节详细介绍“新图灵测试”中跟语言学相关的内容，即威诺格拉德模式挑战，其宗旨在于测试人工智能系统的语义理解和常识推理所达到的水平；接着介绍威诺格拉德模式挑战的升级扩展版，即WinoGrande数据集，还介绍了大语言模型在这个数据集上近于人类的优秀表现。第五节介绍我们为了检测ChatGPT回应威诺格拉德模式挑战的能力，挑选和改编了一些英语和汉语的句子对它进行测试的情况。第六节简单讨论大语言模型到底能不能理解人类自然语言这个问题，说明机器理解语言虽然不可能像人类一样进行具身模拟，但是完成任务的结果近似；并且说明构建类似威诺格拉德模式挑战的测试集是语言学家应该参与的工作，也是语言学在人工智能时代扩展自身学术领域的一个绝佳的机会。

二、机器智能水平的语言理解测试和分布式语义学

（一）ChatGPT在亲属关系推理上的表现

语言学的目标是揭示人类自然语言的结构、功能和历时演变的规律，而人工智能上语言模型研究的目标是为人类自然语言建立可计算的数学模型。这么看起来，从理论上讲，两者不仅目标不冲突，而且可以互相促进。比如，语言学为语言模型研究提供语言规律方面的理论支持，语言模型研究向语言学研究提出有关的应用需求。但是，在宏观的科技政策和实际的语言处理技术与工程实践中，两者好像是各自为政的；虽然不至于互不理会，但是的确关系疏远。至少，国务院2017年颁布的《新一代人工智能发展规划》中，就是没有语言学的一席之地。尤其令人困惑的是，在当今的大语言模型时代，基于统计的神经网络语言模型基本上不依赖于语言学知识，却在各项自然语言处理任务上表现优秀，有些甚至超过人类基线的水平。比如，ChatGPT在语言理解与生成上的优异表现就令人咂舌。举一个例子，亲属关系的理解和推理是一个需要语言学知识与常识推理的难题，在前些年曾经难倒了日本的考试机器人Torobo-kun。据当时（2017年）的日本媒体报道，人工智能机器人Torobo-kun宣布放弃参加高考。①尽管它在数学、英语语法和细节阅读等题目上能取得很好的成绩，但对于涉及推理的阅读理解题却无法回答。例如，面对下列这道对于日本人来说属于世界历史的问题：

中国三国时代魏国第一位皇帝曹丕的父亲是谁？

Torobo-kun居然无法给出正确的答案。虽然人们已提前将“曹丕是曹操的儿子”这样的百科性历史知识告诉了它，但是，由于没有相应的推理机制，它并不理解“父子关系”。那么，是不是简单地将“父亲”与“儿子”的关系对应起来，就能解决问题了呢？这样做也许能解决一部分问题，但不能彻底解决问题。比如，“A是B的父亲”，B可能是A的儿子，也可能是A的女儿，说明这种推理还涉及性别问题。如果已知“A和B都是C的孩子”，问“A和B的关系”，那么除了性别，还先要确认A和B是不是同一个人，因为同一个人可以有两个名称（比如，“曹操”“曹孟德”指同一个人），然后再确认长幼次序，才能确定他们的关系。所以，要机器人理解亲属关系，必须赋予它一套合适的亲属关系的推理系统。

笔者从2006年至2018年，先后指导了两届博士后和两届博士研究生研究这个问题，经过10多年的不懈努力，初步解决了这类难题，发表了一系列论文（陈振宇，等2009，2010；陈振宇，袁毓林2010；袁毓林，等2010；卢达威，袁毓林2019），研制出了效率较高的“汉语亲属关系的自动推理系统”。现在，这类亲属关系问题基本上难不倒ChatGPT。下面是笔者跟ChatGPT plus（下同）关于亲属关系推理的问答记录（2023-06-21）：

共20条结果上一页12 3 4 5 6 下一页全部展开

当今古汉语语法分析质疑

孙良明

语言文...2005年第11期
当今古汉语语法分析质疑

孙良明

语言文...2005年第11期
词组与小句之间的差异及其蕴含的理论意义(之...

徐杰

语言文...2005年第11期
词组与小句之间的差异及其蕴含的理论意义(之...

徐杰

语言文...2005年第11期
现代汉语“把+个+NP+VC”句式探微

张谊生

语言文...2005年第11期

如何测试ChatGPT的语义理解与常识推理水平？

相关文章：

如何测试ChatGPT的语义理解与常识推理水平？