双重差分设计及其最新发展

作  者:

作者简介:
赵西亮,厦门大学宏观经济研究中心、厦门大学经济学院和王亚南经济研究院,电子邮箱:zhaoxiliang@gmail.com;刘劼成,康卿(通讯作者),厦门大学经济学院,电子邮箱:3129998214@qq.com,15320211152676@stu.xmu.edu.cn(厦门 361005)。

原文出处:
经济学动态

内容提要:

双重差分法(DID)是应用微观经济学研究中一种非常流行的研究设计和识别策略,它的核心识别条件是平行趋势假设,是典型的基于设计的研究范式,是一种前向工程方法。然而,DID应用中仍然存在着不少问题。比如将回归模型和结构模型相混淆,将回归模型蕴含的识别条件和DID设计需要的识别条件相混淆,将安慰剂检验和显著性检验相混淆等,从而导致估计偏差。本文首先介绍了两种计量经济学研究范式的区别与联系,其次从基于设计的计量研究范式出发,分别讨论了DID设计的目标参数定义、识别条件引入和参数估计方法。重点讨论了回归模型中如何引入控制变量,它所蕴含的识别假设和DID设计中需要的识别假设是什么关系。再次,讨论了平行趋势检验存在的问题和解决办法,特别是介绍了安慰剂检验和敏感性分析。最后,本文介绍了DID估计量的统计显著性检验,特别是随机置换检验在DID应用中的适用性。


期刊代号:F11
分类名称:理论经济学
复印期号:2026 年 02 期

字号:

  一、引言

  双重差分法(difference-in-differences,简称DID)是政策评估的一种重要研究设计,是基于设计的计量(design-based econometrics)研究范式的典型代表,在经济学的实证研究中非常流行。据统计,2018年,NBER应用微观方面的工作论文中,近25%的论文使用了双重差分法(Currie et al.,2020),近些年更是超过了30%(Goldsmith-Pinkham,2024)。

  近年来,学者们开始将双重差分法运用到更复杂的渐进政策(staggered policy)情形中,研究发现,当存在时间异质性时,双向固定效应(TWFE)估计量存在负权重问题(Borusyak et al.,2024;de Chaisemartin & D' Haultfœuille,2020;Goodman-Bacon,2021),当存在组间异质性时,事件研究法估计量存在着“污染偏差”问题,利用事件研究法估计量检验事前趋势的方法也不再适用(Sun & Abraham,2021;Goldsmith-Pinkham et al.,2024),从而引发学者们对多期渐进政策等复杂情形下如何合理地估计因果效应进行了广泛讨论(Callaway & Sant' Anna,2021;Wooldridge,2021;Borusyak et al.,2024;Imai et al.,2023;Caetano & Callaway,2024;张征宇等,2024;林梦芸等,2025),这些文献充分体现了实证研究中估计方法和因果推断之间的矛盾,也反映了基于模型的计量(model-based econometrics)和基于设计的计量两种研究范式的冲突。

  双重差分法已经成为经济学经验分析中最流行的实证方法,然而在应用研究中仍然存在一些问题。第一,估计方法使用不当的问题。据笔者统计,2022年和2023年在《经济研究》上共发表25篇使用双重差分法的实证文章,其中14篇为渐进政策,占总量的56%,经典DID的文章为11篇,占44%。评估渐进政策的文章均使用TWFE作为主要的估计方法,其中仅有5篇文章在稳健性检验中采用了最新的估计方法以讨论异质性对估计结果的可能影响。第二,估计方法和识别假设不一致的问题。双重差分法的核心识别条件是平行趋势假设,而应用学者往往使用回归模型估计政策效应,但回归模型所蕴含的平行趋势假设和作者试图引入的平行趋势假设可能并不一致,从而使估计结果产生偏差。第三,平行趋势检验问题。多数文章做了平行趋势检验,但基本上都采用事件研究法进行事前趋势的估计。在经典DID设计中,事件研究法作为估计事前效应的方法是合适的,但在渐进政策中,事件研究法可能存在污染偏差,并不适合估计事前效应。另外,目前流行的平行趋势检验方法存在很大问题,后文将对此进行详细讨论。第四,协变量的引入方式问题。在TWFE模型中,非时变协变量不能直接引入,但有些学者没有注意到这一点,使估计方法所蕴含的平行趋势假设和作者引入的假设不一致,从而出现估计偏差。另外,对于时变协变量,应用学者往往将其直接引入回归模型,Caetano & Callaway(2024)发现,这种引入方式会造成负权重问题,从而出现估计偏差。

  基于应用中存在的一些问题,很有必要对DID设计的基本原理及其最新发展进行梳理,以便为应用学者提供参考。对于交错DID和事件研究法,刘冲等(2022)、张子尧和黄炜(2023)、林梦芸等(2025)分别进行了很好的综述,但他们主要是从估计角度进行的梳理,属于反向工程(reverse engineering)的内容。本文可能是国内第一篇从基于设计的角度梳理DID原理的文章,Baker et al.(2025)和本文密切相关,都从前向工程(forward engineering)视角归纳了DID设计的基本识别条件、估计方法和协变量引入方式。但本文进一步总结了平行趋势检验、安慰剂检验、敏感性分析和随机置换检验等方面的发展,并针对国内DID应用中存在的一些误用问题进行了讨论。

  二、两种计量经济学研究范式

  计量经济学存在两种基本的研究范式:基于模型的计量和基于设计的计量。基于模型的计量也称为结构计量(structural econometrics),其基本特点是根据经济理论等先验知识构造结构方程。结构方程是描述变量间因果关系的行为方程,应用中通常采用线性模型,模型系数就是因果效应参数。由于结构方程就是假设的因果关系模型,在结构计量中不存在因果识别或因果推断的问题,只存在参数识别和参数估计的问题,即如何利用函数形式假设或误差项分布假设识别模型系数。因此,一旦建立结构方程系统,则完全描述清楚了变量间的因果机制,从而结构计量可以进行政策评估、福利评价和经济预测等。但是,由于结构计量依赖于函数形式,往往存在模型误设的风险,实证结果可信性不强(Leamer,1983;LaLonde,1986)。由于结构计量先使用回归模型进行估计,然后再讨论估计量代表什么因果效应,因而被称为反向工程方法(Mogstad & Torgovitsky,2024)。

  基于设计的计量也称为简约式计量(reduced-form econometrics),其是随着结构计量的衰落而发展起来的。20世纪70年代结构计量达到顶峰时期,各国均使用大型联立方程系统进行经济预测和政策评估。但随着西方石油危机的爆发,联立方程系统的表现越来越差,学者们开始放弃构建联立方程系统,而转向单一结构方程的估计,不再关注整个系统参数的估计,而是专注于估计单一参数。20世纪90年代,以Card、Angrist等人为代表,开始利用自然实验的外生性,识别因果效应参数,将随机化实验的思想运用到观测研究中,从而发生了一场经济学经验研究的“可信性革命”(Angrist & Pischke,2010),由于它强调研究设计,模拟随机化实验,因而也称为基于设计的计量。基于设计的计量的典型特点是不引入结构方程,不引入任何函数形式假设,采用定义—识别—估计的三阶段方法。首先,定义目标参数(target parameters)或因果效应参数(causal estimands),目标参数是研究者想回答的问题,通常用潜在结果符号表述。其次,引入识别条件,进行因果识别,即引入合理的识别假设,将不可观测的因果效应参数转化为可观测的统计参数(statistical estimands),这一阶段不涉及样本,体现了研究设计或自然实验的利用过程,这一步骤也称为因果推断(causal inference)。最后,利用样本信息去估计统计参数,利用合适的统计方法构造估计量(estimator)。由于基于设计的计量没有引入任何因果模型,不会存在模型误设,在识别条件满足的情况下,估计的因果效应非常可信。因为直接从目标参数出发寻找合适的估计方法,所以被称为前向工程方法(Mogstad & Torgovitsky,2024)。基于设计的计量也有不足,它只能评估已发生的政策,对Heckman提出的第二种和第三种政策评估无能为力。①表1总结了两种计量研究范式的区别。

相关文章: