一、导言:社会学量化研究中的效度取舍 因果推断是社会科学量化研究的终极目标(陈云松、范晓光,2010;胡安宁,2012)。长久以来,社会学量化研究主要使用基于大规模代表性调查的观测数据(范晓光,2020)。然而,在反事实框架(counterfactual framework)下使用观测数据直接推测因果关系面临着内生性(endogeneity)的问题,即如果存在一个无法观测的干扰变量同时影响自变量和因变量,那么得出的因果关系就会存在偏差(Gangl,2010)。虽然之前的研究提出了一系列解决内生性问题的方法,比如工具变量、倾向值匹配、大数据和机器学习等(陈云松,2012;胡安宁,2012;龚为纲、朱萌,2018),但是这些方法在因果推断方面都存在一定程度的缺陷(陈云松、范晓光,2010)。在众多研究方法中,实验法一直被认为是解决内生性问题和进行因果推断的黄金法则。因为实验可以通过随机化(randomization)确保因果关系的真实性,所以拥有很高的内部效度(Duflo et al.,2007)。然而,实验方法在社会学中的运用还非常有限。其中一个重要的原因是实验(特别是实验室实验)通常被认为缺乏外部效度,得出的研究结果缺乏代表性和推广性,无法运用到更广泛的场景中(方文,1995)。比如,很多实验使用小规模的非代表性样本并在实验室中开展,所以最后的实验结果很难反映社会群体在真实世界中的行为和态度(Webster & Sell,2014)。由于社会学的很多议题关注社会整体层面的机制,并强调不同人群之间的异质性,尽管实验方法可以保证因果关系的真实性,但依然被认为不适用于社会学研究(彭玉生,2011)。 因此,长久以来社会学家在选择研究方法的时候一直面临着内部效度和外部效度之间的取舍问题:使用调查研究可以获得高外部效度但要牺牲一定的内部效度,使用实验研究可以获得高内部效度但要牺牲外部效度(方文,1995)。近年来,国际社会学界兴起了一个新的研究方法——调查实验法(survey experiment)。它结合了调查和实验方法两者的优势,从而可以兼顾研究的内部和外部效度,因此在社会学研究中的应用范围不断扩大(Mutz,2011;Auspurg & Hinz,2015;Wallander,2009)。此外,杰克森(Jackson)和考科思(Cox)2013年发表在社会学权威研究综述期刊《社会学年鉴》(Annual Review of Sociology)上的论文也充分肯定了调查实验法的巨大价值,并强调了它对于社会学不同领域研究的重要意义(Jackson & Cox,2013)。尽管调查实验法对社会学研究具有很大价值,但国内社会学界对于此方法的研究和运用尚处于起步阶段。 因此,本文旨在通过介绍调查实验这一新兴的研究方法把实验设计引入中国社会学的实证研究,从而丰富社会学量化研究,发展社会学理论,为构建中国特色社会主义社会学做出贡献。接下来,文章首先介绍调查实验的定义、分类和原理,然后通过将调查实验法与调查统计方法和其他实验法分别进行对比,凸显其在研究特定社会学问题上的优势。然后,文章通过分析一个具体的案例来详细介绍调查实验的设计及操作过程。接着,文章对调查实验在社会学研究中的意义和应用场景进行阐述,最后讨论了该方法的局限并对全文进行总结。 二、调查实验法的定义、分类和因果推断原理 (一)定义与分类 调查实验指的是通过调查方法实施的以个人为对象的实验,也可以被通俗地理解为嵌入调查的实验(Mutz,2011)。因此,调查实验具有调查和实验的双重特征。从调查的角度来说,调查实验通常使用大规模的概率或非概率抽样,采用结构化的问卷,并通过实地面访、电话、邮寄或网络等形式收集数据。通过使用概率抽样或者加权非概率抽样,调查实验可以收集到具有代表性的样本,从而保证研究的推广性以及外部效度(Schaeffer & Presser,2003)。从实验的角度来说,调查实验允许研究者操纵处理变量,即核心自变量,并且可以对样本进行随机化分组,从而保证了因果推断的准确性以及内部效度(Duflo et al.,2007)。 调查实验根据其研究问题可以分为两种类型。第一,早期的调查实验的主要目的在于提升社会调查和测量方法精度以及避免社会期许误差(social desirability bias)的影响。比如,对于一些敏感问题比如性取向、家庭暴力和种族歧视,受访者倾向于在调查中做出符合社会期望的回答,而非真实的回答。这类调查实验包括列举实验(list experiment)、随机应答(randomized response)等随机实验。它们通过随机化提问的方式保护受访人的隐私,从而得到他们真实的回答。第二,近年来越来越多的调查实验通过创造随机的虚拟情境(vignette)来进行因果推断。这类调查实验也被称为情景实验(vignette experiment),这是本文的重点。 情景实验又可以分为单因素和多因素的设计。单因素设计只包含一个实验变量,多因素设计又名析因设计(factorial design),可以包含多个实验变量。最早的单因素情景实验可以追溯到公共舆论研究中的“分选投票”(split-ballot)设计,即把受访者随机分成两组(实验组和控制组)并发放其他部分完全相同的问卷,但对其中一个问卷的问题进行实验处理(任莉颖,2018)。比如,罗森把受访者随机分为两组来研究他们对一个虚拟家庭补助政策的态度(Rosen,1973)。实验组(experimental group/treatment group)的政策包含了总统支持这个政策的信息,而控制组(control group,或称对照组,comparison group)则没有这一消息。结果发现实验组中的受访者对政策的支持率更高,从而揭示了总统对于政策支持度的影响。单因素情景实验也可以从简单的两个情景拓展到多个情景,进而比较不同类型实验干预的处理效应(treatment effect)。