双重机器学习之因果推断：CATE 条件平均处理效应估计五大方法与实战

因果推断 | CATE 条件平均处理效应估计：五大方法原理详解与模拟数据实战

本文聚焦 CATE（Conditional Average Treatment Effect，条件平均处理效应）的估计，从 ATE 的局限性讲起，深入介绍 S-Learner、T-Learner、X-Learner、因果森林 DML 和线性 DML 五种主流方法的原理，并在模拟数据上进行完整的代码实操与效果对比。

1 从 ATE 到 CATE：为什么需要异质性处理效应？

1.1 ATE 只能回答"平均有没有用"

ATE（Average Treatment Effect）回答的是：干预措施对整个群体的平均效果是什么？

但在实际业务中，我们更想知道的是：对于不同的个体或子群，干预效果有什么不同？

举几个例子：

精准营销：给所有人发满减券 ATE 为正，但拆开看，高消费用户根本不需要券，低消费用户反而是增量用户——CATE 帮你找到真正的增量人群。
个性化医疗：某新药对年轻患者效果显著，对老年患者副作用大于疗效——只看 ATE 可能得出"有效"的结论，但对老年患者施加干预反而有害。
政策评估：教育补贴对低收入家庭的效果远大于高收入家庭——CATE 可以指导财政资源的精细化分配。

1.2 CATE 的数学定义

CATE（条件平均处理效应）定义为：

文章配图

其中：

Y(1)：个体接受处理时的潜在结果
Y(0)：个体未接受处理时的潜在结果
X：协变量/特征向量
τ(x)：给定特征 x 条件下的处理效应

CATE 是协变量 X 的函数，刻画了处理效应的异质性（Heterogeneity）。ATE 只是 CATE 的期望：

文章配图

1.3 估计 CATE 的核心难点

根本问题（Fundamental Problem of Causal Inference）：对同一个个体，我们只能观察到一种潜在结果。要么看到 Y(1)，要么看到 Y(0)，不可能同时观察到两者。

因此，τ(x) = E[Y(1) - Y(0) | X=x] 不能直接通过数据计算，需要借助统计方法来估计。

2 五大 CATE 估计方法原理详解

下面介绍五种最常用的 CATE 估计方法，按照"从简单到复杂"的顺序排列。

2.1 S-Learner（Single Model Learner）

核心思想：把处理变量 T 当作一个普通特征，训练一个统一的模型。

步骤：

将 T 拼接到协变量 X 中，训练模型 μ̂(X, T) 拟合结果 Y

方法	模型数	能否捕捉非线性 CATE	是否去偏	是否有置信区间	适用场景
S-Learner	1	是	否	否	快速基线
T-Learner	2	是	否	否	样本均衡
X-Learner	4+	是	部分	否	样本不均衡
CausalForestDML	多	强	是	是	通用首选
LinearDML	多	否	是	是	需要可解释性

符号	说明
X（5 维）	协变量，服从标准正态分布
T（0 或 1）	二值处理变量
Y（连续）	结果变量

指标	含义	越小/大越好
MSE	均方误差	越小越好
MAE	平均绝对误差	越小越好
Bias	平均偏差	越接近 0 越好
R²	对真实 CATE 变异的解释比例	越大越好
Corr	与真实 CATE 的相关系数	越大越好

方法	MSE	MAE	Bias	R²	Corr
S-Learner	0.1003	0.2168	0.0469	0.9362	0.9788
T-Learner	0.1311	0.2652	0.0474	0.9166	0.9593
X-Learner	0.0516	0.1539	0.0226	0.9672	0.9840
DML-CausalForest	0.1329	0.2220	0.0666	0.9155	0.9648
DML-Linear	0.7658	0.7626	0.5035	0.5132	0.8220

文件名	内容
fig1_cate_scatter.png	各方法 CATE 估计 vs 真实值散点图
fig2_cate_by_x1.png	CATE 随 X1 变化趋势对比
fig2b_cate_by_x2.png	CATE 随 X2 变化趋势对比
fig3_cate_dist.png	CATE 估计值分布直方图
fig4_error_boxplot.png	估计误差箱线图
fig5_dml_linear_coef.png	LinearDML 系数（含置信区间）
fig6_true_cate_heatmap.png	真实 CATE 在 X1-X2 平面的热力图

要点	说明
CATE 是什么	条件平均处理效应，刻画处理效应的异质性
为什么需要 CATE	ATE 是"一刀切"，CATE 支持个性化决策
核心难点	反事实不可观测，需要统计方法估计
推荐方法	CausalForestDML（通用首选）+ LinearDML（需要可解释性时）
关键假设	无未观测混淆 + SUTVA + Positivity

""" 因果推断 | CATE（条件平均处理效应）估计方法：模拟数据下的完整实战 ================================================================= 包含以下方法： 1. S-Learner 2. T-Learner 3. X-Learner 4. DML + 因果森林 5. DML + 线性模型全部基于 numpy / sklearn 实现，无需 econml。 """ import numpy as np import pandas as pd import matplotlib matplotlib.use('Agg') import matplotlib.pyplot as plt from matplotlib import rcParams from scipy.ndimage import uniform_filter1d import warnings warnings.filterwarnings('ignore') rcParams['font.sans-serif'] = ['DejaVu Sans'] rcParams['axes.unicode_minus'] = False plt.style.use('seaborn-v0_8-whitegrid') COLORS = ['#2196F3', '#FF5722', '#4CAF50', '#9C27B0', '#FF9800'] from sklearn.ensemble import GradientBoostingRegressor, RandomForestRegressor from sklearn.linear_model import LogisticRegression, LinearRegression from sklearn.model_selection import KFold # ==================== DGP ==================== def generate_data(n=5000, seed=42): np.random.seed(seed) X = np.random.randn(n, 5) X1, X2, X3 = X[:,0], X[:,1], X[:,2] tau_true = X1 + 0.5*X2**2 - 1.0 logit_e = 0.5*X1 + 0.3*X3 e_x = 1.0/(1.0+np.exp(-logit_e)) T = np.random.binomial(1, e_x) mu_0 = 2.0*X1 - X2 + 0.5*X3 Y = mu_0 + T*tau_true + np.random.randn(n)*0.5 print("="*60) print(" Data Summary") print("="*60) print(f" n={n} dim={X.shape[1]} treat_rate={T.mean():.3f} ATE={tau_true.mean():.3f}") print(f" CATE range: [{tau_true.min():.2f}, {tau_true.max():.2f}]") print("="*60) return X, T, Y, tau_true # ==================== Methods ==================== def s_learner(X, T, Y): XT = np.column_stack([X, T]) m = GradientBoostingRegressor(n_estimators=200, max_depth=4, learning_rate=0.1, random_state=42) m.fit(XT, Y) return m.predict(np.c_[X, np.ones(len(X))]) - m.predict(np.c_[X, np.zeros(len(X))]) def t_learner(X, T, Y): m1 = GradientBoostingRegressor(n_estimators=200, max_depth=4, learning_rate=0.1, random_state=42) m0 = GradientBoostingRegressor(n_estimators=200, max_depth=4, learning_rate=0.1, random_state=42) m1.fit(X[T==1], Y[T==1]); m0.fit(X[T==0], Y[T==0]) return m1.predict(X) - m0.predict(X) def x_learner(X, T, Y): m1 = GradientBoostingRegressor(n_estimators=200, max_depth=4, learning_rate=0.1, random_state=42) m0 = GradientBoostingRegressor(n_estimators=200, max_depth=4, learning_rate=0.1, random_state=42) m1.fit(X[T==1], Y[T==1]); m0.fit(X[T==0], Y[T==0]) D1 = Y[T==1] - m0.predict(X[T==1]) D0 = m1.predict(X[T==0]) - Y[T==0] tm1 = GradientBoostingRegressor(n_estimators=200, max_depth=4, learning_rate=0.1, random_state=42) tm0 = GradientBoostingRegressor(n_estimators=200, max_depth=4, learning_rate=0.1, random_state=42) tm1.fit(X[T==1], D1); tm0.fit(X[T==0], D0) ps = LogisticRegression(random_state=42, max_iter=1000); ps.fit(X, T) e = ps.predict_proba(X)[:,1] return e*tm0.predict(X) + (1-e)*tm1.predict(X) def dml_cross_fit(X, T, Y, n_splits=5): kf = KFold(n_splits=n_splits, shuffle=True, random_state=42) Y_res, T_res = np.zeros(len(Y)), np.zeros(len(T), dtype=float) for tr, te in kf.split(X): my = GradientBoostingRegressor(n_estimators=100, max_depth=3, learning_rate=0.1, random_state=42) mt = GradientBoostingRegressor(n_estimators=100, max_depth=3, learning_rate=0.1, random_state=42) my.fit(X[tr], Y[tr]); mt.fit(X[tr], T[tr].astype(float)) Y_res[te] = Y[te] - my.predict(X[te]) T_res[te] = T[te] - mt.predict(X[te]) return Y_res, T_res def dml_causal_forest(X, T, Y): Y_res, T_res = dml_cross_fit(X, T, Y) T_clip = np.clip(np.abs(T_res), 0.01, None)*np.sign(T_res) T_clip[T_clip==0] = 0.01 pseudo = Y_res / T_clip q_lo, q_hi = np.percentile(pseudo, [2, 98]) pseudo = np.clip(pseudo, q_lo, q_hi) rf = RandomForestRegressor(n_estimators=300, max_depth=6, min_samples_leaf=20, random_state=42) rf.fit(X, pseudo) return rf.predict(X) def dml_linear(X, T, Y): Y_res, T_res = dml_cross_fit(X, T, Y) Z = T_res.reshape(-1,1) * X reg = LinearRegression(fit_intercept=True); reg.fit(Z, Y_res) tau_hat = X @ reg.coef_ + reg.intercept_ resid = Y_res - reg.predict(Z) n, p = Z.shape sigma2 = np.sum(resid**2)/(n-p-1) se = np.sqrt(np.diag(sigma2 * np.linalg.inv(Z.T@Z + 1e-8*np.eye(p)))) return tau_hat, reg.coef_, se # ==================== Evaluation ==================== def evaluate(tau_true, tau_hat, name): mse = np.mean((tau_true-tau_hat)**2) mae = np.mean(np.abs(tau_true-tau_hat)) bias = np.mean(tau_hat-tau_true) ss_res = np.sum((tau_true-tau_hat)**2) ss_tot = np.sum((tau_true-tau_true.mean())**2) r2 = 1 - ss_res/ss_tot corr = np.corrcoef(tau_true, tau_hat)[0,1] return {'Method':name, 'MSE':round(mse,4), 'MAE':round(mae,4), 'Bias':round(bias,4), 'R2':round(r2,4), 'Corr':round(corr,4)} # ==================== Plots ==================== def plot_scatter(tau_true, res, path='fig1_cate_scatter.png'): n = len(res) fig, axes = plt.subplots(1, n, figsize=(3.8*n, 4), dpi=130) if n==1: axes=[axes] for i,(name,th) in enumerate(res.items()): ax=axes[i] ax.scatter(tau_true, th, alpha=0.12, s=6, c=COLORS[i%5]) lims=[min(tau_true.min(),th.min())-0.5, max(tau_true.max(),th.max())+0.5] ax.plot(lims,lims,'k--',lw=1,alpha=0.5) c=np.corrcoef(tau_true,th)[0,1]; m=np.mean((tau_true-th)**2) ax.set_title(f'{name}\nCorr={c:.3f} MSE={m:.3f}',fontsize=10) ax.set_xlabel('True CATE',fontsize=9) if i==0: ax.set_ylabel('Estimated CATE',fontsize=9) plt.tight_layout(); plt.savefig(path,bbox_inches='tight'); plt.close() print(f" [saved] {path}") def plot_by_feature(X, tau_true, res, fi=0, fn='X1', path='fig2_cate_by_x1.png'): fig,ax=plt.subplots(1,1,figsize=(10,6),dpi=130) si=np.argsort(X[:,fi]); xs=X[si,fi]; w=100 ax.scatter(xs,tau_true[si],alpha=0.06,s=4,c='gray',label='True CATE') ax.plot(xs,uniform_filter1d(tau_true[si],w),'k-',lw=2.5,label='True (smoothed)') for i,(name,th) in enumerate(res.items()): ax.plot(xs,uniform_filter1d(th[si],w),lw=2,alpha=0.85,color=COLORS[i%5],label=name) ax.set_xlabel(fn,fontsize=13); ax.set_ylabel('CATE',fontsize=13) ax.set_title(f'CATE vs {fn}',fontsize=14); ax.legend(fontsize=9,loc='upper left') plt.tight_layout(); plt.savefig(path,bbox_inches='tight'); plt.close() print(f" [saved] {path}") def plot_dist(tau_true, res, path='fig3_cate_dist.png'): fig,ax=plt.subplots(1,1,figsize=(10,6),dpi=130) ax.hist(tau_true,bins=50,alpha=0.3,color='gray',density=True,label='True CATE') for i,(name,th) in enumerate(res.items()): ax.hist(th,bins=50,alpha=0.4,color=COLORS[i%5],density=True,label=name,histtype='step',lw=2) ax.set_xlabel('CATE',fontsize=13); ax.set_ylabel('Density',fontsize=13) ax.set_title('CATE Distribution',fontsize=14); ax.legend(fontsize=9) plt.tight_layout(); plt.savefig(path,bbox_inches='tight'); plt.close() print(f" [saved] {path}") def plot_error_box(tau_true, res, path='fig4_error_boxplot.png'): fig,ax=plt.subplots(1,1,figsize=(10,6),dpi=130) errs=[th-tau_true for th in res.values()]; labs=list(res.keys()) bp=ax.boxplot(errs,labels=labs,patch_artist=True,showfliers=False) for p,c in zip(bp['boxes'],COLORS[:len(labs)]): p.set_facecolor(c); p.set_alpha(0.5) ax.axhline(0,color='red',ls='--',lw=1,alpha=0.7) ax.set_ylabel('Error',fontsize=12); ax.set_title('CATE Estimation Error',fontsize=14) plt.tight_layout(); plt.savefig(path,bbox_inches='tight'); plt.close() print(f" [saved] {path}") def plot_coef(coef, se, fnames, path='fig5_dml_linear_coef.png'): fig,ax=plt.subplots(1,1,figsize=(8,5),dpi=130) y=np.arange(len(fnames)); ci=1.96*se ax.barh(y,coef,xerr=ci,color=COLORS[0],alpha=0.7,capsize=5) ax.set_yticks(y); ax.set_yticklabels(fnames,fontsize=12) ax.axvline(0,color='red',ls='--',lw=1) ax.set_xlabel('Coefficient',fontsize=12); ax.set_title('DML-Linear Coefficients (95% CI)',fontsize=13) for i,(c,s) in enumerate(zip(coef,se)): ax.text(c+ci[i]+0.02, i, f'{c:.3f}', va='center', fontsize=10) plt.tight_layout(); plt.savefig(path,bbox_inches='tight'); plt.close() print(f" [saved] {path}") def plot_heatmap(tau_true, X, path='fig6_true_cate_heatmap.png'): fig,ax=plt.subplots(1,1,figsize=(8,6),dpi=130) sc=ax.scatter(X[:,0],X[:,1],c=tau_true,cmap='RdYlBu_r',alpha=0.4,s=5,vmin=-3,vmax=5) plt.colorbar(sc,ax=ax,label='True CATE') ax.set_xlabel('X1',fontsize=13); ax.set_ylabel('X2',fontsize=13) ax.set_title(r'True CATE: $\tau(X) = X_1 + 0.5 X_2^2 - 1$',fontsize=14) plt.tight_layout(); plt.savefig(path,bbox_inches='tight'); plt.close() print(f" [saved] {path}") # ==================== Main ==================== def main(): print("\n"+"="*60) print(" CATE Estimation - Simulation Study") print("="*60+"\n") X, T, Y, tau_true = generate_data(n=5000, seed=42) fnames = ['X1','X2','X3','X4','X5'] res = {}; metrics = [] print("\n>>> [1/5] S-Learner...") res['S-Learner'] = s_learner(X,T,Y) metrics.append(evaluate(tau_true, res['S-Learner'], 'S-Learner')) print(">>> [2/5] T-Learner...") res['T-Learner'] = t_learner(X,T,Y) metrics.append(evaluate(tau_true, res['T-Learner'], 'T-Learner')) print(">>> [3/5] X-Learner...") res['X-Learner'] = x_learner(X,T,Y) metrics.append(evaluate(tau_true, res['X-Learner'], 'X-Learner')) print(">>> [4/5] DML-CausalForest...") res['DML-CausalForest'] = dml_causal_forest(X,T,Y) metrics.append(evaluate(tau_true, res['DML-CausalForest'], 'DML-CausalForest')) print(">>> [5/5] DML-Linear...") tau_l, coef_l, se_l = dml_linear(X,T,Y) res['DML-Linear'] = tau_l metrics.append(evaluate(tau_true, tau_l, 'DML-Linear')) # Results table print("\n"+"="*60) print(" Evaluation Results") print("="*60) df = pd.DataFrame(metrics) print(df.to_string(index=False)) # DML-Linear coefficients print("\n"+"="*60) print(" DML-Linear Coefficients (true: X1=1.0, X2=nonlinear, others=0)") print("="*60) for i,f in enumerate(fnames): lo=coef_l[i]-1.96*se_l[i]; hi=coef_l[i]+1.96*se_l[i] sig = "*" if lo>0 or hi<0 else "" print(f" {f:>4}: {coef_l[i]:>7.4f} SE={se_l[i]:.4f} 95%CI=[{lo:.4f}, {hi:.4f}] {sig}") # Plots print("\n>>> Generating plots...") plot_scatter(tau_true, res) plot_by_feature(X, tau_true, res, 0, 'X1', 'fig2_cate_by_x1.png') plot_by_feature(X, tau_true, res, 1, 'X2', 'fig2b_cate_by_x2.png') plot_dist(tau_true, res) plot_error_box(tau_true, res) plot_coef(coef_l, se_l, fnames) plot_heatmap(tau_true, X) print("\n"+"="*60) print(" All done!") print("="*60) return res, df if __name__ == '__main__': results, df_metrics = main()

双重机器学习之因果推断：CATE 条件平均处理效应估计五大方法与实战

因果推断 | CATE 条件平均处理效应估计：五大方法原理详解与模拟数据实战

1 从 ATE 到 CATE：为什么需要异质性处理效应？

1.1 ATE 只能回答"平均有没有用"

1.2 CATE 的数学定义

1.3 估计 CATE 的核心难点

2 五大 CATE 估计方法原理详解

2.1 S-Learner（Single Model Learner）

更多推荐文章

相关免费在线工具

2.2 T-Learner（Two Model Learner）

2.3 X-Learner（Cross Learner）

2.4 因果森林 DML（CausalForestDML）

2.5 线性 DML（LinearDML）

2.6 方法对比总结

3 模拟数据设计（DGP）

3.1 变量设计

3.2 数据生成公式

3.3 数据生成代码

4 实验结果

4.1 评估指标

4.2 各方法评估结果

4.3 结果分析

5 可视化解读

5.1 CATE 估计值 vs 真实值散点图

5.2 CATE 随 X1 变化趋势

5.3 CATE 随 X2 变化趋势

5.4 误差箱线图

6 实战建议与方法选择指南

6.1 该用哪种方法？

6.2 注意事项

7 完整代码

8 总结

参考文献

更多推荐文章

相关免费在线工具

双重机器学习之因果推断：CATE 条件平均处理效应估计五大方法与实战

因果推断 | CATE 条件平均处理效应估计：五大方法原理详解与模拟数据实战

1 从 ATE 到 CATE：为什么需要异质性处理效应？

1.1 ATE 只能回答"平均有没有用"

1.2 CATE 的数学定义

1.3 估计 CATE 的核心难点

2 五大 CATE 估计方法原理详解

2.1 S-Learner（Single Model Learner）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.2 T-Learner（Two Model Learner）

2.3 X-Learner（Cross Learner）

2.4 因果森林 DML（CausalForestDML）

2.5 线性 DML（LinearDML）

2.6 方法对比总结

3 模拟数据设计（DGP）

3.1 变量设计

3.2 数据生成公式

3.3 数据生成代码

4 实验结果

4.1 评估指标

4.2 各方法评估结果

4.3 结果分析

5 可视化解读

5.1 CATE 估计值 vs 真实值散点图

5.2 CATE 随 X1 变化趋势

5.3 CATE 随 X2 变化趋势

5.4 误差箱线图

6 实战建议与方法选择指南

6.1 该用哪种方法？

6.2 注意事项

7 完整代码

8 总结

参考文献

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具