相比其他学科,医学与人工智能的结合是发表学术成果最为活跃的领域之一。医学数据的多样性和复杂性(涵盖文本、图像、基因组数据等),使得传统的数据分析方法难以全面整合和解析。而大语言模型(LLMs),特别是多模态模型,能够综合分析不同类型的数据,建立跨模态关联,提供从文本到影像的深度理解,为医疗行业带来了革命性的变化。
本文总结了近一年来医学领域大模型的研究进展,主要涵盖辅助诊断、药物研发、基因组学、医患沟通等方面。
一、LLM 在医学细分领域的研究进展
1. 医学影像辅助诊断
哈佛大学生物医学信息学助理教授余坤兴团队于 2024 年 9 月在《Nature》上发表了重要成果。他们开发了一款临床组织病理学成像评估基础模型(CHIEF, Clinical Histopathology Imaging Evaluation Foundation)。该 CHIEF 模型能够对源于肺、乳腺、前列腺、结直肠、胃、食道、肾、脑、肝、甲状腺、胰腺、宫颈、子宫、卵巢、睾丸、皮肤、软组织、肾上腺和膀胱等组织的 19 种癌症进行诊断,检测准确率接近 94%。目前团队正与业界合作,计划将 CHIEF 模型发展为临床辅助诊断工具,并准备 FDA 的相关审批工作。
美国商业公司 Paige 研发的病理学基础模型 Virchow,能够实现泛癌症检测。在九种常见癌症和七种罕见癌症中,其样本级接收者操作特征曲线下面积(AUC)达到 0.95。此外,在训练数据较少的情况下,Virchow 也能实现与生产中的组织特异性临床级模型相似的性能,并在某些罕见癌症变种上超越它们。
哈佛大学医学院研究团队近期开发了一个用于人类病理学切片鉴定的视觉语言通用 AI 助手——PathChat。该系统通过自我监督学习对来自 100 万多张切片的图像片段进行预训练,能够从活检切片中正确识别疾病,准确率近 90%,超越了 GPT-4V 的表现。
SkinGPT-4 是一个基于多模态大型语言模型的互动皮肤病诊断系统。它基于 Llama-2-13b-chat 大型语言模型,通过 52,929 张病理图像及临床概念进行训练。用户可以上传自己的皮肤照片进行诊断。系统自主评估图像,识别皮肤状况的特征和类别,进行深入分析,并提供互动治疗建议。
中山大学附属第一医院针对甲状腺结节影像及病理评估的一项实验表明,725 名患者中的 1161 幅甲状腺结节的影像诊断对比中,ChatGPT 4.0 和 Bard 显示出显著到几乎完美的内部一致性,与两名高级影像师和一名初级影像师的人机交互策略相当,并超过了仅有一名初级影像师的人机交互策略。
中国学者开发的肺尘病诊断大模型 PneumoLLM,开辟了针对数据稀缺的职业病应用 LLMs 的新范式,通过广泛的实验展示了大模型在诊断尘肺病方面的优越性。
2. 药物开发
浙江大学人工智能医学创新研究院开发了 LEDAP 模型,利用了基于 LLM 的生物文本特征编码来预测药物 - 疾病关联、药物 - 药物相互作用和药物 - 副作用关联。LEDAP 在与其他流行的 DBA 分析工具相比时展示了其显著的竞争力。
哈佛医学院研究人员开发的 TxGNN 模型,在涵盖 17,080 种疾病的疾病机制和 7,957 种药物的作用机制的医学知识图谱上进行训练,旨在解决现有药物的新应用,为治疗选择有限且分子数据稀缺的疾病识别候选药物。
中国科学技术大学联合微软研究院,开发了 TamGen——一种采用类似 GPT 的化学语言模型的方法,能够实现靶向感知的分子生成和化合物精炼。将 TamGen 集成到药物发现流程中,并识别出 14 种对结核病 ClpP 蛋白酶表现出显著抑制活性的化合物,其中最有效的化合物的半最大抑制浓度(IC50)为 1.9 μM。
理解化学干扰的转录响应对于药物发现至关重要。中科院计算技术研究所联合合作者,开发了 PRnet 深度生成模型,能够预测从未在大规模和单细胞水平上进行实验干扰的新化学扰动的转录响应。PRnet 使基因水平的响应解释和基于基因特征的计算药物筛选成为可能。PRnet 生成了一个大规模的扰动特征整合图谱,涵盖 88 个细胞系、52 种组织和各种化合物库。并成功推荐了 233 种疾病的药物候选者。
化疗和靶向治疗中,药物耐药性是一个关键挑战。佛罗里达大学团队提出的 DrugFormer 模型,整合了序列化基因标记和基于基因的知识图谱,以高精度预测单细胞水平的药物耐药性。来自不同癌症类型的全面单细胞数据分析突显了 DrugFormer 在识别耐药细胞和揭示潜在分子机制方面的有效性。
3. 基因组学
布朗大学团队开发了多模态深度学习模型 EPBDxDNABERT-2。使用包含 690 个 ChIP-seq 实验结果的染色质免疫沉淀测序(ChIP-Seq)数据进行训练,EPBDxDNABERT-2 显著提高了 660 多个 TF-DNA 的预测,揭示了在全基因组关联研究中发现的与疾病相关的非编码变异的机制。
受大型语言模型的启发,北京理工大学邵斌等开发了一种用于基因组的长上下文生成模型 megaDNA。模型的基础能力包括预测必需基因、遗传变异效应、调控元件活性以及未注释序列的分类。此外,它能够生成长度达到 96 K 碱基对的 de novo 序列,这些序列包含潜在的调控元件和具有噬菌体相关功能的注释蛋白。该生成基因组模型代表了全功能基因组从零开始设计的第一步。
Memorial Sloan Kettering 癌症中心报告了一种基于遗传,而非组织病理学数据训练的人工智能算法的构建,该算法能够准确分类浸润性乳腺癌(ILCs)并揭示 CDH1 失活机制,为开发应用于全切片图像的诊断人工智能模型提供了正交真实数据利用的基础。这揭示了与强基因型 - 表型相关性相关的遗传改变可用于开发应用于病理学的人工智能系统,从而促进癌症诊断和生物学发现。
肽在许多生物活动中发挥着关键作用,是药物设计中有前景的候选者。然而,准确预测蛋白质 - 肽结合亲和力仍是一项挑战。针对这一问题,北京工业大学团队开发了一种基于卷积神经网络和多头注意力的预测模型 PepPAP,该模型仅依赖于序列特征。PepPAP 可用于广泛基因组蛋白 - 肽结合亲和力预测,并有潜力为基于肽的药物设计提供有价值的见解。


