在数智时代,大数据与人工智能改变了经济主体行为与经济运行方式,也改变了经济学研究范式。大数据为人类提供了认识与改造世界的新思维,即大数据思维,这是通过大数据发现复杂系统的运行规律、解决现实问题、预测未来变化的新范式;大数据思维的实现方式主要基于人工智能技术与方法。现代经济学的主流研究范式是实证研究,即以数据为基础推断经济变量之间的逻辑关系,特别是因果关系,从而揭示经济运行规律;计量经济学是其最主要的方法论。大数据的可获得性进一步强化了这种研究范式。大数据与人工智能催生了数据驱动研究范式,计算社会科学也因此应运而生。那么,人工智能前沿技术特别是新近诞生的聊天机器人 ChatGPT及其基础模型技术的发展将如何改变经济学乃至社会科学的研究范式? 1 ChatGPT及其大语言模型方法论 近几年来,人工智能特别是利用人工智能技术生成内容的技术获得迅猛发展,其中一个代表性技术进步是通用型聊天机器人ChatGPT的成功开发并投入使用。ChatGPT是一种基于互联网文本数据进行训练的文本生成深度学习模型,并通过强化学习及人机对话的方式持续提供反馈,能够较好执行各种自然语言处理任务。ChatGPT是人工智能特别是自然语言处理领域的一个革命性技术突破,代表人工智能发展的一个新方向,预计对人类生产方式、生活方式及社会治理方式等各个领域将产生深远影响。 ChatGPT的主要方法论是“规模至上”,其算法基础是大语言模型。大模型是参数维数极大的模型,这些参数需要通过数据训练或估计。大语言模型是指输入数据主要为文本数据的大模型。大语言模型在深度学习发展阶段就已出现。随着人工神经网络模型的隐藏层不断增加,其参数数量呈现快速增长。文本数据本质上是高维或超高维数据,简约模型无法刻画异质性高维数据的特征,因此需要使用大语言模型。从计量经济学与统计学视角看,大模型的最大优点是系统偏差比较小。同时,由于ChatGPT的训练数据主要来自互联网文本数据,样本容量极其庞大,从而保证了大语言模型参数的估计精度。因此,大语言模型具有比较强的泛化能力,即样本外预测能力。特别是大语言模型具有非线性规模效应,随着规模的增加,其预测能力呈现非线性增加。 在经济管理领域,人类很多决策均基于样本外预测。如果使用某个领域的文本数据来训练模型,模型维度可能不用太大。但是,对通用人工智能技术,随着异质性文本数据的大量增加,小模型偏差较大,其样本外预测能力变差。这时需要扩大模型规模,使用更多数据训练模型,以提高泛化能力。随着计算机科学特别是算力与算法的快速进步,这种不断扩大规模的方法已成为通用人工智能技术的一个发展模式。 长期以来,计量经济学与统计学面临的一个困扰是“维数灾难”:当模型参数维数相比数据容量不是很小时,虽然模型偏差比较小,但因为参数维数大,在有限数据容量条件下,对每个参数的估计不甚精准,导致模型过度拟合,其样本外预测能力较差。“维数灾难”不仅存在于计量经济学与统计学,在社会科学和自然科学很多领域也存在。ChatGPT通过使用海量互联网大数据,确保训练数据容量远大于模型参数维数,从而避免了“维数灾难”。另外,大语言模型的结构设计是深度、多维、多层、多头的注意力结构,可自适应高维空间的稀疏与不平衡数据结构,为避免“维数灾难”提供了一种表示学习的解决方案。 作为学术研究的好助手,ChatGPT可大幅提高研究效率。在经济学研究中,可借助ChatGPT搜索信息、收集数据、撰写文献综述、编写代码、检查程序、设计实验方案、翻译文本等。虽然目前ChatGPT的表现有不少缺点,其整体智能水平与人类相比尚有不小的差距;但可以预计,随着人工智能技术的发展以及ChatGPT广泛应用的经验积累,ChatGPT的智能程度在很多方面将日益接近甚至超过人类。 ChatGPT及其大语言模型方法论可能会对经济学乃至整个社会科学的研究范式产生深远影响。例如,实验经济学研究表明,人类经济行为并不满足完全理性假设,更多表现为有限理性,甚至存在预期偏差。ChatGPT及其大语言模型能够改进理性经济人假设;因此,基于人工智能或由人工智能辅助的经济决策可提供更有效的资源配置方案、改进政策评估精准性,以及提升经济决策的科学性等。本文聚焦讨论ChatGPT及其大语言模型方法论对经济学研究范式的可能影响。 2 大模型与经济学研究范式 2.1 计量经济学小模型范式 过去40年,经济学研究范式发生了一个深刻变革,即所谓的“实证革命”,也被称为“可信性革命”。作为经济学实证研究最主要的方法论,计量经济学也日益成为社会科学很多领域的主流研究范式。2021年诺贝尔经济学奖得主Joshua Angrist曾指出,应用计量经济学所考虑的问题和其他社会科学或者流行病学所考虑的问题并无本质区别,任何希望从数据中得到有用推断的人都可称为应用计量经济学家。 计量经济学与统计学的一个基本建模原则是,使用尽量简约的模型即小模型刻画数据特征及变量之间的关系。在20世纪,统计学存在参数与非参数建模的方法论之争。统计学家Ronald Fisher认为非参数模型因其参数维数高而估计不精确,主张使用参数维数较少的参数模型;另一位统计学家Karl Pearson则关注参数模型可能误设而产生较大偏差,主张使用非参数模型。计量经济学也有类似争论。2003年诺贝尔经济学奖得主Robert Engle主张从特定模型出发,通过检验遗漏变量等计量经济学方法拓展模型,这是所谓的“从特殊到一般”的建模方法;而伦敦计量经济学派代表人物David Hendry则主张从高维的一般模型出发,通过统计学假设检验与经济理论约束条件等方法得到特定模型,这是所谓的“从一般到特殊”的建模方法。“从一般到特殊”的建模方法更适合大数据分析,更接近数据驱动研究范式。但是,两种建模方法的最终目的都是获得一个具有经济可解释性的简约模型,参数不多且有经济含义,同时拥有良好的样本外预测能力。