潜在结果框架

Quote

Two roads diverged in a yellow wood
And sorry I could not travel both

Robert Frost, The Road Not Taken

个体 i 的处理分配(treatment assignment) Di 为二元时,结果变量 Yi潜在结果定义为

Yi={Yi(0), if Di=0Yi(1), if Di=1

一般地,个体 i 的处理分配 Di 为多元乃至连续时,结果变量 Yi 的潜在结果定义为

Yi=Yi(di), where diDi

更一般地,个体 i 的结果变量 Yi 还可能受到其他个体的处理分配 Di 的影响。但是,我们通常假设这种影响不存在,这被称为 SUTVA 假设:

Yi(di,di)=Yi(di)

以二元处理分配的情形为例,潜在结果的定义可以总结为

Yi=DiYi(1)+(1Di)Yi(0)=Yi(0)+[Yi(1)Yi(0)]Di

其中,Yi(1)Yi(0) 就是处理分配 Di 对个体 i 产生的处理效应。

然而,在个体层面,我们至多只能观察到一个实现了的潜在结果,其他潜在结果永远不得而知。也就是说,个体处理效应是根本不可识别的(fundamentally unidentifiable)。因此,我们退而求其次,将个体潜在结果(常数)视为来自总体潜在结果(随机变量)的简单随机抽样,转而寻求识别平均处理效应(ATE):

ATE=E[Y(1)]E[Y(0)]

我们有时也可能按实际处理分配分组,寻求识别组平均处理效应(ATT & ATU)

ATT=E[Y(1)Y(0)D=1]ATU=E[Y(1)Y(0)D=0]

独立性假设

要想识别平均处理效应,一个自然的想法是直接比较分组结果变量均值之差

Δ=E[YD=1]E[YD=0]

显然,只有满足

E[Y(1)D=1]=E[Y(1)]E[Y(0)D=0]=E[Y(0)]

也就是说,只有处理组 Y(1) 的均值、控制组 Y(0) 的均值和总体一致时,ATE=Δ 才成立;换句话说,如果有任何因素使得分组过程并不随机,处理组和控制组并不可比,均值之差就不等于平均处理效应,这被称为选择偏差(selection bias)。可惜的是,由于选择偏差包含未知的 Y(1)Y(0),同样是不可识别的。我们只好暂且幻想能够随机分组,也就是满足独立性(independence)假设:

{Y(0),Y(1)}D

这样直接比较分组均值就能得到处理效应估计值了:

ATE^=i=1nYiDii=1nDii=1nYi(1Di)i=1n(1Di)

(编写这样复杂的解析式似乎没有代码 mean(Y[D==1])=mean(Y[D==0]) 直观)

条件独立性 - 共同支撑假设

引入条件独立性(conditional independence)假设,又称 selection on observables

{Y(0),Y(1)}DX

其中,X 是同时影响处理分配和潜在结果的可观测协变量集合,简称 confounders

为了识别条件处理效应,还要求满足共同支撑(common support)假设

0<P(D=1X)<1

其中,P(D=1X) 常简记为 p(X) ,称为倾向得分(propensity score)


Definition Treatment effect of unit i

TEiYi(0)Yi(1)

Definition Average treatment effect on the treated

ATTE[Yi(1)Yi(0)Di=1]

Definition Average treatment effect on the untreated

ATUE[Yi(1)Yi(0)Di=0]

Definition Average Treatment Effect

ATEE[Yi(1)Yi(0)]=pATT+(1p)ATU
Potential Outcome Observed Outcome Counterfactual Outcome
Treated Yi(1) Yi(0)
Untreated Yi(0) Yi(1)
Average Potential Outcome Observed Outcome Counterfactual Outcome
Treated T1=E[Yi(1)Di=1] T0=E[Yi(0)Di=1]
Untreated C0=E[Yi(0)Di=0] C1=E[Yi(1)Di=0]

Compare the Naive estimator with the true effects:

T1C0=T1T0+T0C0=ATT+T0CoT1C0=C1C0+T1C1=ATU+T1C1T1C0=p(T1T0)+(1p)(C1C0)+(T0C0)+(1p)[(T1T0)(C1C0)]=ATE+(T0C0)+(1p)(ATTATU)

T0C0 is called selection bias,代表两组处理前特征上的不同;

(1p)(ATTATU) is called heterogeneous treatment effect bias,代表两组处理后影响效果的不同。

实验研究

For unit i, we have pretreatment covariates Xi, a binary treatment indicator Di, and an observed outcome Yi with two potential outcomes Yi(1) and Yi(0) under the treatment and control, respectively. For simplicity, we assume

{Di,Xi,Yi(0),Yi(1)}i=1niid{D,X,Y(0),Y(1)}

So we can drop the subscript i for quantities of this population.

Definition Potential outcome of Y

Y={Y(0), if D=0Y(1), if D=1

Definition Treatment effect of unit i

TEY(0)Y(1)

Definition Average treatment effect on the treated

ATTE[TED=1]=E[Y(1)Y(0)D=1]

Definition Average treatment effect on the untreated

ATUE[TED=0]=E[Y(1)Y(0)D=0]

Definition Average Treatment Effect

ATEE[TE]=E[Y(1)Y(0)]=ATT×P(D=1)+ATU×P(D=0)

Definition 差分被估量 (naive estimand)

Δ=E[YD=1]E[YD=0]=E[Y(1)D=1]E[Y(0)D=0]

比较 ΔATTATU 的差异

ΔATT=E[Y(0)D=1]E[Y(0)D=0]ΔATU=E[Y(1)D=1]E[Y(1)D=0]

这说明如果处理组和对照组的潜在结果不同,估计组平均处理效应时就会存在选择偏差

比较 ΔATE 的差异

ΔATE=ΔATT×P(D=1)ATU×P(D=0)=(ΔATT)+(ATTATU)×P(D=0)=(ΔATU)+(ATUATT)×P(D=1)

两个等式对应两种分解方法,分解为相应组的选择偏差异质处理效应

引入独立性假设(Independence Assumption, IA

{Y(0),Y(1)}D

即是否接受处理是随机的,则有

Δ=ATT=ATU=ATE

此时,选择偏差和异质处理效应全部消失。

观察研究

Definition Conditional average treatment effect on the treated

ATT(X)E[Y(1)Y(0)D=1,X]

Definition Conditional average treatment effect on the untreated

ATU(X)E[Y(1)Y(0)D=0,X]

Definition Conditional average Treatment Effect

ATE(X)E[Y(1)Y(0)X]=ATT(X)×P(D=1X)+ATU(X)×P(D=0X)

Definition 条件差分被估量 (naive estimand)

Δ(X)=E[YD=1,X]E[YD=0,X]=E[Y(1)D=1,X]E[Y(0)D=0,X]

比较 Δ(X)ATT(X)ATU(X) 的差异

Δ(X)ATT(X)=E[Y(0)D=1,X]E[Y(0)D=0,X]Δ(X)ATU(X)=E[Y(1)D=1,X]E[Y(1)D=0,X]

比较 Δ(X)ATE(X) 的差异

Δ(X)ATE(X)=Δ(X)ATT(X)×P(D=1X)ATU(X)×P(D=0X)=[Δ(X)ATT(X)]+[ATT(X)ATU(X)]×P(D=0X)=[Δ(X)ATU(X)]+[ATU(X)ATT(X)]×P(D=1X)

引入条件独立性假设(Conditional Independence Assumption, CIA

{Y(0),Y(1)}DX

即给定 X 后是否接受处理是随机的,则有

Δ(X)=ATT(X)=ATU(X)=ATE(X)

此时,选择偏差和异质处理效应全部消失。

根据定义易知

ATT=ATT(X=x)P(X=xD=1)ATU=ATU(X=x)P(X=xD=0)ATE=ATE(X=x)P(X=x)

因此,在 CIA 假设下使用 Δ(X) 即可估计任意因果效应。

Attention

条件差分被估量 Δ(X) 的存在要求 X 划分任意的层同时包含处理组和对照组,这被称为共同支撑条件 (common support condition),记作 0<P(D=1X)<1。事实上,共同支撑条件在 X 维数很高时难以满足,这为倾向得分的出现埋下了伏笔。