跳到主要内容
多组学因果推断实操:孟德尔随机化与中介效应建模 | 极客日志
R 算法
多组学因果推断实操:孟德尔随机化与中介效应建模 介绍多组学背景下孟德尔随机化(MR)与中介效应建模的整合分析框架。涵盖理论基础、数据准备、质量控制、核心分析及敏感性验证全流程。通过免疫表型至代谢物至疾病的案例,展示如何利用 R 和 Python 代码进行因果推断。重点讲解工具变量筛选、等位基因对齐、多重检验校正及中介比例计算。适用于解析复杂疾病机制,为精准医学研究提供从关联到因果的方法论支持。
赛博朋克 发布于 2026/3/29 更新于 2026/5/22 29 浏览一、引言:从关联到因果 —— 多组学研究的核心挑战
在精准医学时代,多组学技术(基因组学、转录组学、蛋白质组学、代谢组学等)已成为解析复杂疾病机制的核心工具。通过整合不同生物分子层面的数据,研究者能构建从基因到表型的分子调控网络,但传统分析往往止步于变量间的相关性描述,难以区分因果关系与混杂干扰。例如,在肥胖与 2 型糖尿病的研究中,炎症因子水平升高与两者均相关,但无法确定是炎症导致糖尿病,还是肥胖同时驱动了两者变化。
孟德尔随机化(Mendelian Randomization, MR)借助遗传变异的'自然随机分配'特性,为解决因果推断难题提供了新思路。其核心逻辑是:遗传变异在受孕时随机分配,不受后天环境和疾病状态影响,可作为暴露因素的工具变量(Instrumental Variable, IV),有效规避混杂偏倚与反向因果问题。而中介效应建模能进一步拆解因果通路,识别多组学分子在暴露 - 结局关系中的中间传导角色,例如揭示某蛋白质如何介导基因变异对疾病的影响。
本指南将系统梳理多组学背景下 MR 与中介效应建模的整合分析框架,结合真实案例与可复现代码,助力研究者实现从'发现关联'到'解析机制'的跨越。
二、核心理论基础:MR 与中介效应的底层逻辑
(一)孟德尔随机化的三大核心假设
MR 的有效性依赖于工具变量必须满足以下三个不可撼动的假设:
相关性假设 :工具变量(遗传变异)与暴露因素(如基因表达、蛋白质水平)强相关。通常用 F 统计量检验,F 值>10 可避免弱工具偏倚,计算公式为:F=1−R²/(N×R²)(N 为样本量,R²为遗传变异对暴露的解释度)。
独立性假设 :工具变量与暴露 - 结局关系中的混杂因素(如年龄、生活方式)无关。可通过 Hansen's J 统计量检验外生性是否成立。
排他性假设 :工具变量仅通过暴露因素影响结局,不直接作用于结局或通过其他通路传导。需通过 MR-Egger 截距检验和 MR-PRESSO 分析评估水平多效性。
(二)中介效应的 MR 解析框架
中介效应建模旨在将暴露(X)对结局(Y)的总效应分解为两部分:
直接效应:暴露不通过中介因子(M)直接影响结局的效应;
间接效应(中介效应):暴露通过中介因子传导至结局的效应,计算公式为暴露对中介的效应(βₓₘ)与中介对结局的效应(βₘᵧ)的乘积;
中介比例:间接效应占总效应的百分比,用于量化中介因子的贡献权重。
在多组学研究中,中介因子可来自转录组(基因表达)、蛋白质组(血浆蛋白)、代谢组(代谢物)等不同层面,形成'基因型→转录物→蛋白质→代谢物→疾病'的层级因果通路。
(三)多组学数据的整合逻辑
多组学数据具有维度高、异质性强的特点,需通过以下策略实现与 MR 的整合:
工具变量分层筛选 :基因组层面用 SNP 作为 IV,转录组用 eQTL(表达数量性状位点),蛋白质组用 pQTL(蛋白质数量性状位点),确保 IV 与对应组学分子的特异性关联。
数据标准化 :基因表达数据采用对数转换 + Z-score 标准化,质谱代谢数据通过标准物质校正,确保不同组学数据的可比性。
多重检验校正 :采用 FDR 或 Bonferroni 方法控制全基因组 / 全转录组分析中的假阳性,例如在 1400 种代谢物筛选中,FDR<0.05 可有效降低Ⅰ类错误。
三、实操全流程:从数据准备到因果验证
以'免疫表型→血浆代谢物→再生障碍性贫血(AA)'的因果通路解析为例,完整展示多组学 MR 中介分析的实施步骤。
(一)Step1:研究设计与数据来源
1. 研究框架搭建
明确三要素:
暴露变量:731 种免疫表型(如 CD39⁺Treg 细胞比例);
中介变量:1400 种血浆代谢物(如糖基磷脂酰肌醇 GPI);
结局变量:再生障碍性贫血(AA)发病风险。
2. 数据资源获取
数据类型 推荐数据库 获取方式 关键参数 免疫表型 GWAS
代谢物 GWAS Metabolomics GWAS Catalog 批量下载汇总数据 包含 pQTL 及代谢物浓度数据
疾病 GWAS DisGeNET、FinnGen 筛选 AA 相关条目 病例数>500,对照数>1000
工具变量参考 GTEx(eQTL)、PharmGKB 提取 SNP - 分子关联 LD 阈值 r²<0.01,P<1e-5
实操技巧 :通过 IEU GWAS 数据库的 extract_instruments() 函数可直接获取标准化工具变量,无需本地存储几十 G 原始数据,代码如下(R 语言):
install.packages( "TwoSampleMR" )
library( TwoSampleMR)
exposure_dat <- extract_instruments( outcomes = "ieu-a-1234" , p1 = 1e-5 , clump = TRUE )
head( exposure_dat[ , c ( "snp" , "beta" , "se" , "pval" ) ] )
(二)Step2:数据预处理与质量控制
1. 工具变量筛选
关联性筛选 :保留与暴露 / 中介显著关联的 SNP(P<1e-5),例如 CD39⁺Treg 表型筛选出 26 个有效 SNP。
独立性筛选 :采用 LD 剪枝(clump 参数设置 r²<0.01,距离>1000kb),排除连锁不平衡的 SNP。
有效性筛选 :计算 F 统计量,剔除 F<10 的弱工具变量,确保 βₓₘ估计无偏。
2. 数据标准化与合并
效应量统一 :将所有数据的效应量转换为'每增加 1 个标准差暴露 / 中介,结局的变化量'。
等位基因对齐 :通过 harmonise_data() 函数统一 SNP 的等位基因方向,避免链翻转导致的效应量偏差:
import pandas as pd
import numpy as np
from TwoSampleMR.py import harmonise
exposure = pd.read_csv("exposure_snps.csv" )
mediator = pd.read_csv("mediator_snps.csv" )
outcome = pd.read_csv("outcome_snps.csv" )
harmonised_exp_med = harmonise.harmonise_data(exposure, mediator)
harmonised_med_out = harmonise.harmonise_data(mediator, outcome)
(三)Step3:孟德尔随机化核心分析 采用'三步法'验证因果关系链:暴露→中介、中介→结局、暴露→结局。
1. 暴露对中介的 MR 分析(X→M) 以 CD39⁺Treg(暴露)对 GPI(中介)的效应分析为例,采用多种 MR 方法交叉验证:
med_dat <- extract_outcome_data( snps = exposure_dat$ snp, outcomes = "ieu-b-5678" )
dat_xm <- harmonise_data( exposure_dat, med_dat)
mr_results_xm <- mr( dat_xm, method_list = c ( "ivw" , "mr_egger_regression" , "weighted_median" ) )
print( mr_results_xm[ , c ( "method" , "b" , "se" , "pval" , "or" ) ] )
关键结果解读 :若 IVW 法显示 βₓₘ=0.23(95% CI:0.11~0.35,P=0.002),表明 CD39⁺Treg 水平每增加 1SD,GPI 浓度显著升高 23%,满足中介效应的前提条件。
2. 中介对结局的 MR 分析(M→Y) 验证 GPI 对 AA 的因果效应,需控制暴露因素的混杂:
import statsmodels.api as sm
from statsmodels.stats.outliers_influence import variance_inflation_factor
X = harmonised_med_out[["beta_med" , "beta_exp" ]]
X = sm.add_constant(X)
y = harmonised_med_out["beta_out" ]
vif = pd.DataFrame()
vif["变量" ] = X.columns
vif["VIF" ] = [variance_inflation_factor(X.values, i) for i in range (X.shape[1 ])]
model_my = sm.OLS(y, X).fit()
print (model_my.summary())
3. 暴露对结局的总效应分析(X→Y) 采用 IVW 法作为核心方法,MR-Egger 和加权中位数法作为敏感性验证:
out_dat <- extract_outcome_data( snps = exposure_dat$ snp, outcomes = "ieu-c-9012" )
dat_xy <- harmonise_data( exposure_dat, out_dat)
mr_results_xy <- mr( dat_xy, method_list = c ( "ivw" , "mr_egger_regression" , "weighted_median" ) )
mr_forest_plot( mr_results_xy, dat_xy)
(四)Step4:中介效应建模与量化 采用乘积法 计算中介效应,公式为:中介效应 = βₓₘ × βₘᵧ;中介比例 =(βₓₘ × βₘᵧ)/ βₓᵧ × 100%。
1. 单中介效应计算
beta_xm <- mr_results_xm$ b[ mr_results_xm$ method == "ivw" ]
beta_my <- model_my.params[ "beta_med" ]
beta_xy <- mr_results_xy$ b[ mr_results_xy$ method == "ivw" ]
mediation_effect <- beta_xm * beta_my
mediation_proportion <- ( mediation_effect / beta_xy) * 100
cat( paste0( "中介效应:" , round ( mediation_effect, 3 ) , "\n" ) )
cat( paste0( "中介比例:" , round ( mediation_proportion, 2 ) , "%\n" ) )
案例结果 :如 GPI 在 CD39⁺Treg 与 AA 间的中介效应为 - 0.003,中介比例为 - 8.80%(95% CI:-16.00%~-1.63%,P=0.016),表明 GPI 在该通路中发挥负向中介作用。
2. 多中介效应分析 当存在多个代谢物作为潜在中介时,采用多变量 MR(MVMR)模型控制中介间的相互干扰:
install.packages( "MVMR" )
library( MVMR)
mv_data <- format_mvmr( exposure_dat = exposure_multi, mediator_dat = mediator_multi, outcome_dat = out_dat)
mv_result <- mvmr( mv_data, method = "ivw" )
mediation_effects <- mv_result$ beta_mediator
(五)Step5:敏感性分析与结果稳健性验证 敏感性分析是 MR 研究的'生命线',需从异质性、多效性、稳定性三方面展开:
1. 异质性检验 采用 Cochran's Q 检验评估工具变量间的效应异质性:
heterogeneity_xm <- mr_heterogeneity( dat_xm, method = "ivw" )
cat( paste0( "Cochran's Q 统计量:" , round ( heterogeneity_xm$ q_stat, 2 ) , "\n" ) )
cat( paste0( "P 值:" , round ( heterogeneity_xm$ q_pval, 3 ) , "\n" ) )
判断标准 :P>0.05 表明无显著异质性,模型拟合良好。
2. 水平多效性评估
MR-Egger 截距检验 :若截距项 95% CI 覆盖 0 且 P>0.05,提示无定向多效性。
MR-PRESSO 检验 :识别并剔除异常值 SNP,验证结果稳定性。
from pymrpress import mrp
presso_result = mrp.mr_presso(dat_xy["beta_exp" ], dat_xy["beta_out" ], dat_xy["se_exp" ], dat_xy["se_out" ])
print ("全局异常值检验 P 值:" , presso_result.global_pval)
print ("校正后效应量:" , presso_result.corrected_beta)
3. 稳定性检验 采用**留一法(Leave-One-Out)**分析单个 SNP 对总效应的影响:
loo_result <- mr_leaveoneout( dat_xy)
mr_leaveoneout_plot( loo_result)
若剔除任一 SNP 后效应量仍稳定在 95% CI 内,表明结果不受单个工具变量影响。
四、进阶实战:多组学整合的典型案例解析 以'SGLT1 抑制→血浆蛋白 / 代谢物→老年人衰弱'研究为例,展示多组学中介分析的完整应用。
(一)研究设计亮点
暴露变量创新 :以 SLC5A1 基因变异模拟 SGLT1 抑制效应,避免药物干预的伦理限制;
多组学中介整合 :同时纳入 1558 种血浆蛋白和 1352 种代谢物作为中介候选;
分层分析策略 :按性别和衰弱诊断标准(FNIH/EWGSOP)分层验证,提升结果可靠性。
(二)核心发现解读
总效应验证 :SGLT1 抑制与老年人虚弱指数(FI)降低显著相关(IVW: OR=0.82, 95% CI:0.71~0.94, P=0.005);
蛋白中介通路 :神经内分泌转化酶 1(PCSK1)中介比例达 13.49%,提示其在代谢调控中的关键作用;
代谢物中介通路 :棕榈酰肉碱同时介导 SGLT1 抑制对 FI 和低握力的效应,中介比例 8.35%。
(三)关键代码片段:多组学中介筛选
protein_mediators <- list ( )
for ( i in 1 : nrow( protein_list) ) {
med_snps <- extract_instruments( outcomes = protein_list$ id[ i] , p1 = 1e-5 )
if ( nrow( med_snps) > 2 ) {
dat_xm <- harmonise_data( exposure_dat, med_snps)
res_xm <- mr( dat_xm, method = "ivw" )
dat_my <- harmonise_data( med_snps, out_dat)
res_my <- mr( dat_my, method = "ivw" )
if ( res_xm$ pval < 0.05 / 1558 & res_my$ pval < 0.05 / 1558 ) {
protein_mediators[[ i] ] <- data.frame(
protein = protein_list$ name[ i] ,
beta_xm = res_xm$ b,
beta_my = res_my$ b
)
}
}
}
mediator_results <- do.call( rbind, protein_mediators)
五、常见问题与解决方案
(一)工具变量相关问题
弱工具变量偏倚
问题:F<10 导致效应量估计偏倚;
解决方案:降低 P 值阈值(如从 1e-5 降至 1e-6),或合并多个 GWAS 数据集提升样本量。
工具变量数量不足
问题:部分代谢物 / 蛋白对应的 pQTL 数量<3;
解决方案:采用基因水平工具变量(如以基因内所有 SNP 构建多基因风险评分),或参考 GTEx 等数据库补充 eQTL 数据。
(二)多组学数据整合问题
数据异质性
问题:不同数据库的人群 ancestry、检测平台差异导致结果不一致;
解决方案:限定 ancestry 为欧洲人群(减少种群分层),采用 ComBat 方法校正批次效应。
多重检验负担
问题:上万种多组学分子分析导致假阳性升高;
解决方案:采用分层校正策略,先对组学层面进行 FDR 校正(如蛋白组 FDR<0.1),再对显著分子进行 Bonferroni 校正。
(三)中介效应解读问题
负向中介效应
问题:中介比例为负值(如 - 8.80%)难以理解;
解决方案:结合生物学背景,可能提示中介因子具有'缓冲效应',如 GPI 通过抑制炎症反应抵消部分 CD39⁺Treg 的促 AA 效应。
中介效应与因果机制的区别
问题:将统计中介等同于生物学机制;
解决方案:需通过湿实验验证,如在细胞模型中干预 GPI 水平,观察 CD39⁺Treg 对造血细胞凋亡的影响。
六、前沿拓展:多组学因果推断的未来方向
动态中介分析 :结合纵向多组学数据,捕捉中介效应随时间的变化,例如青少年时期的代谢物如何介导肥胖对老年心血管疾病的风险。
多模态整合 :融合影像组学数据(如脑结构影像),解析'基因→蛋白→脑结构→认知下降'的跨尺度因果通路。
机器学习赋能 :采用自编码器对高维多组学数据降维,或用随机森林筛选关键中介因子,减少人工筛选偏差。
药物靶点优先级排序 :通过中介比例量化靶点价值,例如中介比例>30% 的蛋白(如 PON3,中介比例 44.90%)可作为优先开发的药物靶点。
七、结语 多组学孟德尔随机化与中介效应建模的结合,打破了传统关联分析的局限性,为解析复杂疾病机制提供了'因果透镜'。从工具变量筛选到敏感性验证,从单中介到多组学整合,每一步都需要严格的方法学规范与生物学逻辑支撑。
本指南提供的分析框架与代码,可直接应用于免疫、代谢、肿瘤等多个研究领域。但需牢记:统计因果推断是生成假设的工具,而非验证机制的终点。只有将 MR 发现与湿实验验证、临床观察相结合,才能真正实现从'数据'到'机制'再到'干预'的转化,为精准医学研究注入新动能。
相关免费在线工具 加密/解密文本 使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
Gemini 图片去水印 基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online
Base64 字符串编码/解码 将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
Base64 文件转换器 将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
Markdown转HTML 将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online
HTML转Markdown 将 HTML 片段转为 GitHub Flavored Markdown,支持标题、列表、链接、代码块与表格等;浏览器内处理,可链接预填。 在线工具,HTML转Markdown在线工具,online