编者按:2021年10月11日,2021年诺贝尔经济学奖揭晓,3位经济学家Card, Angrist, 和Imbens获此殊荣。伊人直播-伊人直播app
作者 | 苗旺、耿直
诺贝尔经济学奖2021年授予Card, Angrist, 和Imbens,以表彰他们在经济学的实证研究和因果推断方法方面的贡献。三位经济学家获奖的科学背景是观察性数据的因果推断[1]。

图1 Card, Angrist, 和Imbens
挖掘因果关系是众多科学研究的目标,观察性研究是因果推断的主要数据来源。观察性研究不能进行人为控制的试验,不可避免地存在一些背景变量未被观测,与处理和结果变量都相关的背景变量称为混杂因素,忽略混杂因素会导致因果推断的偏差和决策的错误。例如,教育程度和收入水平都与社会环境和家庭背景等密切相关,忽略这些因素,仅看教育和收入的相关性会得到错误的因果作用。忽略混杂因素甚至会导致悖论,在如下的例子中,按性别(混杂因素)分层来看,一种药对男人和女人都有效,但是忽略性别却发现药反而不如安慰剂有效,这便是著名的Simpson悖论 [2]。

表1 Simpson 悖论的一个例子
然而,观察性研究总是存在混杂因素未被观测,导致因果作用无法识别,再精深的统计模型也无能为力,因此混杂因素是观察性研究中因果推断的核心难题。工具变量 (instrumental variable) 是观察性研究中推断因果作用和消除混杂因素的一个有效方法,自Wright [3] 在经济学中率先使用已有近百年历史。一个有效的工具变量需要和关心的处理有强的相关性,但和混杂因素独立,且对结果变量没有直接因果作用。例如,在美国由于达到一定年龄才允许辍学,孩子的出生季度作为工具变量会影响上学的年限但不会直接影响收入 [4] 。但在观察性研究中找到一个有效工具变量很困难,因此,人们也质疑使用工具变量能否作为推断因果作用的一个普遍方式。

图2 工具变量的一个例子,箭头表示有因果关联
在很长一段时间里,经济学家使用工具变量推断因果作用的主要依赖线性模型等结构方程模型 [structural equation model, 3, 5, 6],结构方程模型在形式上与回归模型相似,但结构方程模型非常隐晦地包含了刻画因果关系需要的假定,以至于经常被和表示相关关系的回归模型混为一谈,而其中的因果假定难以表示和验证 [7]。统计学家提出使用潜在结果定义因果作用 [potential outcome framework, 8, 9],潜在结果有更强的表示能力,可以更直接和清楚地定义因果作用和表述因果假定。Angrist、Imbens 和合作者将工具变量与潜在结果模型结合 [10, 11],使用潜在结果模型刻画工具变量假定和相应的统计模型,定义新的因果概念,发展新的统计推断方法。简略地讲,Card在一些重要的劳动经济学问题中找到了恰当的工具变量,Angrist和Imbens使用潜在结果模型重建了工具变量方法。
这并不是诺贝尔奖第一次颁发给因果推断的研究成果,1989年Haavelmo和2000年Heckman获诺贝尔奖的主要贡献都与因果研究密切相关。Haavelmo将数理统计引入经济学 [12],明确经济学模型如联立方程组的因果意义,为计量经济学做出奠基性的工作,被称为计量经济学之父。Heckman的选择模型 [13] 对观察性研究处理缺失数据和选择偏差,以及因果推断消除混杂因素影响非常深远。Card, Angrist和Imbens在工具变量的理论和实证方面的工作将经济学中的因果推断研究推向新的高潮。不仅在经济学中,工具变量方法已广泛应用在生物医学、流行病学、社会学的因果研究中。

图3 Haavelmo 和 Heckman
在为诺贝尔经济学奖获得者欢呼的同时,我们也应关注到几位在因果推断理论和方法上更加精进,应用背景更为丰富的统计学家的贡献—Fisher, Neyman, Rubin, Robins, 和 Pearl。
Fisher使用随机试验评价因果作用 [14],至今仍然是评价药效的金标准。Neyman [8] 最早在随机化试验中提出潜在结果的概念,Rubin进一步发展了观察性研究的潜在结果模型 [9],创立了因果作用这一抽象概念的形式化定义。Haavelmo在创立经济学的统计理论过程中受到Neyman的统计检验理论的很大影响。Robins建立了复杂、纵向、和动态观察性研究的半参数模型和因果推断框架 [15],极大地推动了流行病学等公共卫生领域的因果研究。Pearl建立了与潜在结果模型并驾齐驱的有向无环图模型的因果理论 [16],这项工作获得了2011年的图灵奖。在工具变量研究方面,Rubin既是潜在结果模型的开创者也是Angrist、Imbens将工具变量和潜在结果模型结合的合作者,Robins首次给出了因果作用的上下界 [17],Pearl给出了最紧的界并建立了工具变量不等式 [18],在没有专家知识的情况下,这个不等式是发现和检验工具变量的最有效手段。这些富有独创性的成果一直启发着统计学、经济学、社会学和生物医学领域的研究者。

图4 Fisher, Neyman, Rubin, Robins, 和 Pearl
近年来在各个科学领域,特别是大数据和人工智能领域对因果推断研究的热情高涨,图灵奖获得者Pearl和Bengio都认为因果推断是大数据和人工智能研究的一个突破口, 需要一场“因果革命”来推动人工智能的发展。但因果推断也面临新的挑战。
混杂因素问题的有效解决是因果革命的主要亮点之一 [19], 但寻找有效工具变量是个难题,例如有些家庭可能会根据教育政策调整怀孕和孩子出生的日期,使出生日期不再是一个有效的工具变量。着力发展新的混杂因素调整方法在理论和应用层面都有重要意义,除了工具变量,敏感性分析 [sensitivity analysis, 20, 21],重差法[difference-in-difference, 22, 23], 断点回归[regression discontinuity, 24], 合成对照[synthetic control, 25], 代理推断[proximal inference, 26, 27, 28] 等方法在日益复杂的观察性研究和混杂因素问题中展示出潜力。另外,因果推断在干涉作用 [interference effect, 29], 中介分析 [30, 31, 32],数据融合 [33],和个体化处理 [34, 35] 等问题上的研究将推动各个科学领域对因果机制的深度认识。例如,打疫苗对自己和他人都有保护作用,评价疫苗作用的关键在于识别个体之间的干涉作用。
