21世纪兴起的以大数据分析为主要特征的计算社会科学,加深了人类对社会现象复杂性和规律性的理解,提升了人类决策效率,为社会科学研究创新提供了新的思路和方法。①计算社会科学最初由计算机专家和大型科技公司主导,逐步形成跨学科的研究领域,涉及社会科学、计算机科学、统计学等多个学科。这使得计算社会科学形成了预测范式的研究取向,注重利用大数据研究预测模型并发现规律、预测未来。然而,这种偏重方法和技术的研究方向往往忽视了对社会科学理论的借鉴和吸收,导致许多研究成果难以在实践中得到有效应用,也削弱了其对传统社会科学研究的影响力。②当前计算社会科学尚未形成统一的理论框架,研究方法和成果呈现着碎片化特征。要摆脱这一状态,计算社会科学需要弥合预测范式和解释范式之间的张力。预测范式着重于构建准确的预测模型,却面临着过拟合问题和“黑箱”困境(即模型的可解释问题)的挑战。解释范式则侧重于理解模型背后的机制,需要社会科学理论的指导和支持。 研究范式为一门学科提供了理论框架和方法指导,规范了科学实践。计算社会科学与传统社会科学研究范式的差异性,对于确保两者的独立发展至关重要。尽管计算社会科学包含数据驱动和理论驱动两种研究范式,传统社会科学也有解释性和诠释性范式的讨论,但两者在预测与解释范式上还是有根本区别,因为这关系到研究的最终目的。因此,本文将从预测与解释范式之间张力的角度,探讨人工智能如何促进计算社会科学研究范式的演化。 一、计算社会科学兴起及其与传统社会科学的张力 (一)传统社会科学的因果解释范式 计算社会科学是计算机科学和社会科学交叉融合的产物,其概念最早可追溯到20世纪末。如果以2009年《科学》杂志发表《计算社会科学》一文作为计算社会科学诞生的标志,至今不过15年时间。③其实,计算社会科学萌发于科学革命时期。在实证主义影响下,当时的社会科学家开始尝试利用观察和测量的方法进行系统的假设检验,并将统计学和数学引入社会科学,为计算社会科学的诞生奠定了基础。20世纪50年代,社会科学各个学科如中场论、功能理论、冲突理论等一批新理论出现,需要新的范式来处理人类和社会之间复杂的理论和概念。这些新的理论与计算机的出现共同催生了计算社会科学的诞生。④ 在此过程中,社会科学吸收了统计学、计量经济学甚至自然科学的理论,逐步建立了一套以“反事实框架”为基础的因果检验机制,强调运用科学方法探究社会现象的内在逻辑,从而对社会现象作出理论解释。这种方法注重确定变量之间的因果关系,并试图找出某些变量如何影响其他变量,最后建立模型来解释这些关系。这便是实证主义量化取向的社会科学因果解释范式。因果解释范式在19世纪后逐步发展成为社会科学的主流研究范式,并更具科学性,而且其与计算社会科学的联系也更加密切,因此本文主要讨论传统社会科学因果解释范式与计算社会科学预测范式之间的张力。这一阶段量化研究逐步占据了社会科学研究的主导地位,并通过量化的方法收集和分析数据,以检验假设的有效性,并根据结果验证或修正理论。 (二)计算社会科学的预测范式 20世纪末计算机、通信和数据存储技术的发展不仅使大量数据得以积累,也促成了数据驱动的计算社会科学的诞生。与传统社会科学处理结构化数据不同,计算社会科学不仅需要处理大量数据,而且数据形式主要是文本、图片甚至语音和视频等形式的非结构化数据,其数据处理难度远高于传统社会科学。因此,计算社会科学诞生初期的研究者主要是掌握相关计算机技术的专家和学者。同时,由于大量数据被掌握在如谷歌、微软等大型科技企业或政府部门手中,因此这些专家和学者或来自这些机构,或与之有密切联系。 这些机构对数据的使用主要是为解决实际问题而非对社会现象作出理论解释,因此计算社会科学从数据的使用、方法论的创新等方面突破了传统社会科学的局限,并突破了一般社会科学理论的束缚,专注于挖掘数据间的相关性,力图实现社会预测的功能。计算社会科学的预测功能最引人瞩目的研究领域之一是选举预测。近年来有大量研究利用Twitter等社交网站的数据,使用机器学习、主题建模、情感分析、词嵌入等方法来预测个体的意识形态或政治立场,从而预测选举结果。例如,Tumasjan等人通过研究2009年德国联邦选举日前五个星期内重要政党和相关政治家的100,000多条Twitter推文发现,Twitter不仅是政治观点传播的平台,还是政治家与用户讨论政治观点的重要场所,仅通过推文数量就可以一定程度上反映选举结果,其平均绝对误差仅为1.65%,甚至接近传统选举民意调查的准确度。⑤尽管这项研究是事后进行的,并在研究方法上备受批评,但它为利用Twitter数据进行选举预测提供了令人鼓舞的案例。 强调因果解释机制的传统社会科学与强调社会预测功能的计算社会科学的研究路径存在明显差别:传统社会科学的主要兴趣在于对社会现象的理论解释,期望利用代表性样本(而非大样本),获得对感兴趣参数的无偏估计,因此其要解决的关键计量问题是参数估计值与残差的相关性问题;而计算社会科学主要兴趣在于预测社会现象,因此期望通过大样本(甚至全样本),实现估计残差最小化。从回归分析的角度看,残差的主要来源之一是缺失变量,因此计算社会科学主要通过增加模型复杂性解决数据的不可观测问题,实现估计残差的最小化。 研究旨趣的差异,导致了计算社会科学的数据驱动研究范式与传统社会科学的理论驱动范式之间的张力。⑥传统社会科学家质疑大数据的代表性,并批评计算社会科学忽视了理论的重要性。⑦而以商业和技术专家为主导的群体对计算社会科学的预测功能表示了极端的自信,认为计算社会科学无需理论亦可实现社会预测。⑧迈尔-舍恩伯格和库克耶的观点非常有代表性,他们声称大数据时代我们需要的是总体而非样本,“在大数据时代进行抽样分析就像在汽车时代骑马一样”;大数据时代我们允许数据不精确,“执迷于精确性是信息缺乏时代和模拟时代的产物”;由此,我们不再热衷于寻找因果关系,而更关注相关关系,“知道‘是什么’就够了,没必要知道‘为什么’”;自然科学的理论和社会科学的假想虽然曾帮我们解释和预测世界,但“随着由假想时代到数据时代的过渡,我们也很可能认为我们不再需要理论了”。⑨甚至有学者喊出了大数据时代“理论的终结”。⑩在这些计算社会科学家眼里,大数据拥有无限的可能,但他们似乎忽视了商业应用与社会研究之间的差别。商业法则下的大数据应用注重实用性和商业价值,强调数据对企业决策的支持作用。因此,计算社会科学家确实可以不依赖理论(尽管有时候依赖理论可能会更好),而专注于数据相关性来实现预测,因为商业领域允许不断试错,只要在试错的基础上改进预测效率,就意味着可以提高收入与利润。社会研究则不然,其本质是通过科学方法系统性地探索和理解社会现象、社会问题以及人类行为,旨在揭示社会的运作规律、变迁过程和影响因素。因此,社会科学不可能绕过理论去预测社会现象。