基于迁移学习个性化模型的 AKI 预测模型的开发和验证
本项目旨在构建和验证用于急性肾损伤 (AKI) 预测的具有迁移学习 (PMTL) 的个性化模型,数据基于堪萨斯大学医学中心 (KUMC) 的电子健康记录 (EHR)。
背景
急性肾损伤 (AKI) 是一种异质性综合征,影响 10-15% 的住院患者和 50% 以上的重症监护病房 (ICU) 患者。在此应用中,建议建立个性化预测模型,以识别有医院内获得性 AKI 风险的患者及其风险因素,并在不同的异质性患者亚组中对模型进行外部验证。该项目的开展旨在实现以下目标:
目标 1 - PMTL 的开发:开发个性化 AKI 预测模型方法,并使用来自堪萨斯大学医学中心 (KUMC) 去识别临床数据存储库(本体叙述健康企业存储库)的电子病历 (EMR) 数据进行内部交叉验证。
- 任务 1.1:数据提取和质量检查
- 任务 1.2:探索性数据分析(例如数据清理和表示策略、特征工程)
- 任务 1.3:开发相似样本匹配模块和相似性度量优化模块
- 任务 1.4:解决相似样本匹配后样本量减少的问题(开发迁移学习模块)
- 任务 1.5:开发拟议的个性化模型(PMTL)
目标 2 - PMTL 验证:验证异质性患者的 PMTL。实施自动化软件包为每位普通患者开发 PMTL。在普通患者、高风险亚组、低风险患者和先前 AKI 预测文献研究的亚组中验证了 PMTL 的预测性能,并与全局、亚组和先前模型进行了相应的比较。同一患者的 PMTL 预测结果在不同的实验中不会改变;不同人群的 PMTL 性能变化是由所选测试样本的变化引起的。
- 任务 2.1:在所有测试样本中测试 PMTL
- 任务 2.2:将普通患者和低风险患者的 PMTL 与全局模型进行比较
- 任务 2.3:比较高风险患者的 PMTL、全局和亚组模型
- 任务 2.4:比较先前文献中亚组中的 PMTL、全局、亚组和先前模型
目标 3 - 风险因素的相互作用分析:分析并可视化不同亚群中最重要的预测因子的作用变化,并探索与作用变化相关的预测因子的相互作用。
- 任务 3.1:根据预测因子在提高一般患者模型性能方面的重要性对其进行排序
- 任务 3.2:评估预测因子在不同亚群和人群中的影响变化
- 任务 3.3:基于元回归和亚群分析,分析预测因子的相互作用
数据预处理
对于数据集中的每一例住院病例(就诊),从 EMR 中提取所有人口统计信息、生命体征数据、药物、既往病史和入院诊断。对于测试实验室,提取一组选定的实验室变量,这些变量可能代表与 AKI 相关的合并症的潜在存在。SCr 和 eGFR 未被列为预测因子,因为它们用于确定 AKI 的发生。
变量带有时间戳,数据集中的每次遭遇都由一系列临床事件表示,这些临床事件由每日汇总的临床观察向量构建而成。对于 AKI 患者,预测点是 AKI 发作前 1 天,对于非 AKI 患者,预测点是最后一次 SCr 记录前 1 天。执行以下数据预处理过程:
- 药物暴露:包括住院药物(即住院期间使用的药物)和门诊药物(即药物核对和之前的门诊处方)。药物名称通过映射到 RxNorm 成分进行规范化。如果在预测点前 7 天内服用药物,则药物暴露定义为真。
- 诊断编码:特定医疗系统联盟数据源收集的所有患者精确诊断相关组 (DRG) 表示。对入院诊断进行了独热编码,将其转换为二进制表示。
- 病史:患者病史被记录为主要诊断(ICD-9 代码根据医疗保健研究和质量机构的临床分类软件 (CCS) 诊断类别分组)。在预测点之前考虑了每个主要诊断的存在/不存在。
- 生命体征:根据常用标准对生命体征进行分类,缺失值被视为唯一类别。使用预测点之前的最后记录值。
- 实验室指标:被归类为'未知'、'存在且正常'或'存在且异常'。使用预测点之前的最后记录值。
- 人口统计数据:根据独热编码被转换成二进制变量。
要求
为了运行预测模型并生成最终报告,必须满足以下基础设施要求:
- Python:需要版本 >=3.7.4。
- scikit-learn:python 中广泛使用的机器学习包。大部分实验使用 0.19.2 版本,但校准实验需要 0.24.2 版本。
- statsmodels:用于元回归的 Python 包。

