一、问题的提出 在实证研究中使用控制变量(control variable),旨在排除对研究结果的其他解释因素,并对变量间关系做出更精准的估计,提高研究的内外部效度。正因如此,控制变量与核心变量在研究中具有同等重要的地位(Becker,2005)。目前,实证研究对控制变量的使用方法主要分为实验控制和统计控制两类。实验控制法是在变量产生影响前进行控制,帮助研究者识别更真实的因果关系;统计控制则是在变量影响发生后,通过移除与控制变量有关的变异,修正数据收集过程中的缺陷,得到更有效度的分析结果(曹江雨等,2020)。实践中,受限于研究议题的特殊性,部分研究并不适合实验控制,使用统计控制更为普遍。 控制变量的错误使用会给统计结果带来损害。许多研究者认为在分析中加入控制变量,可以净化核心变量之间的关系,减少Ⅰ类错误的发生①。然而,不当地添加控制变量不仅无法减少偏差,还会导致Ⅱ类错误的出现(Li,2021)。可见,如果没有明确标准或处理不当,都有可能导致参数估计无法解释、变量相关性扭曲及分析结果有效性降低等问题,制约研究发现的科学性与准确性(Becker et al.,2016)。为此,政治学(Lenz and Sahn,2021)、社会学(York,2018)、经济学(Newey and Stouli,2021)、心理学(Bernerth and Aguinis,2016)及工商管理(Curado et al.,2024)等学科已就如何正确使用控制变量展开系统反思与讨论。例如,有研究对管理学顶级期刊发表的580篇论文进行分析发现,只有3%的研究为选择控制变量提供了充分的理论基础(Bernerth et al.,2018)。曹江雨等(2020)对中文期刊组织管理定量研究展开分析,发现绝大部分研究存在过度控制或控制不足的现象。 公共管理曾被视为传统文科专业,而后定量研究的应用日益普遍,然而公共管理学科的定量研究“不规范”问题十分突出(马亮,2017)。尽管近年来国内学者开始关注公共管理定量研究的规范性议题(于文轩和樊博,2020),但针对控制变量的正确选择与使用的讨论尚付阙如。研究者们尚未深刻认识到控制变量的重要性以及应如何正确使用控制变量,“误用”“滥用”的情况十分普遍。因而,强化控制变量使用的规范性、正确性,可提升公共管理定量研究的严谨性、科学性,推动学科知识发现与积累。鉴于此,本文围绕三个问题展开分析: (1)国内公共管理研究对控制变量的基本应用情况如何? (2)国内公共管理研究在使用控制变量方面存在哪些错误? (3)在研究中应如何正确使用控制变量? 为系统回答上述问题,本文对2014—2023年发表于国内8本公共管理权威期刊的760篇论文使用控制变量的情况,进行分析并提出针对性建议。 二、统计控制的基本原理 受实证主义哲学影响,科学研究的目标转向讨论变量间稳定的因果关系,尝试解释外部世界的运行规律与变化动因。密尔指出因果关系存在三个必备条件:原因在时间上早于结果;原因必须与结果存在相关关系;除原因外,不存在对结果的替代解释(Cook and Campbell,1979)。借助文氏图(Venn Diagram)来理解统计控制的基本原理。图1中X为解释变量,Y为被解释变量,Z为额外变量。使用统计方法对额外变量的影响进行控制后,实际使用的解释变量X已不再是原始的X(b+c+e+g),而是移除了解释变量X和额外变量Z的共同变异(c+g)后的剩余解释变量X(b+e)。

图1 解释变量、被解释变量和额外变量的文氏图 控制变量通过排除其他解释来加强因果论证,实现“净化原则”(purifcation principle)。如果在定量分析中没有加入相关控制变量,其研究会被质疑存在遗漏变量偏差。 本文通过下列等式呈现控制变量如何净化x和y之间的关系,假设要估计x[,1]对y的影响(等式1中的β[,1]),控制变量可以消除x[,2]到x[,k]造成的影响。可以使用两阶段回归来估计β[,1]:第一阶段,将x[,1]作为因变量,对x[,2]到x[,k]进行回归,得到残差u(等式2),剔除了所有其他所有控制变量的影响。根据统计假设,残差与等式2右侧的所有变量都没有相关性。第二阶段,用y对残差u进行回归(等式3),u(b[,1])的回归系数与β[,1](控制x[,1]的正确模型中等式1的x[,1]回归系数)相同。显然,如果研究者遗漏了一个重要的控制变量,在接下来的分析中会发现x[,1]和误差项之间存在相关性,这违反了等式基本假设,会产生有偏估计。 y=β[,0]+β[,1]x[,1]+β[,2]x[,2]+…+β[,k]x[,k]+e (1)