一、引言 为研究对象设计严谨的从假设到验证的过程,是社会科学被称为“科学”的原因。科学验证的环节包括案例或数据的采集选择、质量评估以及假设的分析。但社会科学研究对象的能动性、异质性和多变性,意味着数据采集受到问答情境、受访者认知水平、社会期望水平、问卷是否包含示例①等一系列不确定因素的影响,导致研究数据不一定与真实的研究对象等价②,即研究者始终面临收集精准反映经验现实数据的困难。 针对以上问题,已有研究指出,通过改善调查方法、利用现代信息采集终端、建立质量控制流程等方式可从源头提升数据质量,③但仅依赖事前处理是不够的,必须并以关注和采取事后方法,尤其是通过检测数据误差、替代问题数据、选择恰当模型等对数据质量进行综合改进。④这些努力使得“坏”数据依然可以做出令人信服的“好”研究,实现对研究对象的有效解释或预测(也可能是糟糕的预测),助力社会科学知识体系构建和为循证决策提供支持。 由此,本文旨在探究和梳理社会科学如何基于“坏”数据实现“好”研究。对这一问题的解答,可在明晰何为“坏”数据和何为“好”研究的基础上,挖掘借助数据替代、模型替代等助力“坏”数据实现“好”研究的原因、策略和使用情境,并通过实际案例比较不同类型的替代策略及其应用效果。同时,本文进一步讨论大数据时代对替代策略的冲击与影响,为增强社会科学实证研究的科学性奠定方法论基础。 二、何为“坏”数据及其类型特征 (一)“坏”数据的由来 虽然社会科学意图凭借象征确定性和客观性的量化方法和自然科学比肩,但作为研究对象的人的特性始终是区隔二者的根源,⑤导致和“人”相关的社会现象难以借“数据”形式完美地展现。首先,社会科学研究数据的收集容易受到研究对象能动性的干扰,即使是同一人在不同时间、情境下,其行为和思想也会发生变化,致使个人的自我报告(self—report)、事后报告(post hoc report)与现实情况存在差异,影响数据的准确性和可信度。 其次,作为主要依赖问卷调查法采集数据的社会科学,强调调查者与被调查者的“互动”,被调查者的不信任感、对陌生人(外来调查人员)的排斥心理、对社会调查的成见;调查所涉及项目的类型及敏感度;调查问卷设计冗长等因素都可能使被调查者拒绝接受调查⑥,进而影响数据采集的效率和效果。再加上,受制于研究方法自身的客观局限性,不仅难以确保稳定、可靠地获取所需数据,而且无法真实反映研究对象的整体特征,从而影响社会科学研究的结果。 最后,由于社会科学的研究对象往往是抽象概念,无法将其操作化为可精确测量的指标。如,世界银行开发的世界治理指标(Worldwide Governance Indicators,WGI)虽被认为是诸多治理定量研究中严谨度高、影响力大、使用面广的综合指标之一,但WGI六项指标的选择、设计纯粹由WGI作者对治理的观点决定,这表明它们无法精准确认某些国家“治理难题”的性质。⑦ 总结而言,本文的“坏”数据是指不完美契合研究目标、问题、假设的研究数据,它的产生既是研究者和研究对象的能动性使然,也来源于“真实世界”和“数据世界”难以弥合的沟壑。在此定义下,虽然社会科学领域中的“坏”数据比比皆是,但也提醒研究者可以借助各类替代策略最大限度控制研究过程中的不确定性。 (二)“坏”数据的特征 在社会科学领域,研究设计和方法的不当、数据采集和处理过程中的错误、样本量不充足等因素都不可避免地带来数据缺失、异常值、数据失真等问题。除质量和结构问题以外,“坏”数据还存在如下问题:

图1 过程导向—结果导向的研究类型 第一是系统性偏差问题。系统性偏差是指由于数据收集、处理或分析方法的不当,而在研究结果中引入的一致性误差,如选择性偏差、测量偏差、遗漏变量偏差、模型设定偏差等。这种偏差可能导致研究结果系统性地偏离真实值,从而影响结论的准确性和可靠性。如,愈发盛行的在线调查,很大程度上忽略了不具有上网条件的样本人群,带来了样本选择偏差的问题。 第二是数据可比性问题。被调查者情境、认知和理解的差异使数据之间无法直接进行比较和分析,并且单位间的异质性和异方差性问题,也会影响数据的可比性。数据可比性决定分析结果的可靠程度,故亟须注意不同数据的单位、取值和含义。如,由于亚洲各国人民对民主的理解不同,“亚洲晴雨表”第四波⑧在做关于民主的社会调查所得到的截面数据显然缺乏可比性。 第三是样本依赖性问题。对因果关系的研究普遍建立在独立同分布的假设(independent and identically distributed,i.i.d.)之上,而现实的事物集合却很难满足这一条件,产生了观测数据之间存在的相互依赖性。在不同类型的数据中,依赖性问题可能以差异化形式出现,包括时间序列数据的时序依赖、面板数据的个体依赖、空间数据的空间依赖、社会网络数据的网络依赖,因此要采取适当的模型方法进行处理。