概述
本文综述了医学领域大型语言模型(LLM)的进展、应用和面临的挑战。大型语言模型如 ChatGPT 在理解和生成人类语言方面显示出了显著的能力,引起了广泛关注。在医学领域,研究人员正致力于利用 LLM 支持各种医疗任务,如提高临床诊断质量、提供医疗教育等。尽管医疗 LLM 已取得了令人鼓舞的成果,但其开发和应用仍面临着诸多挑战。本综述旨在全面回顾医学 LLM 的发展和部署情况,包括其面临的挑战和机遇。
在开发方面,我们详细介绍了现有医学 LLM 的基本模型结构、参数数量、以及模型开发所用的数据源和规模。这为希望开发针对特定需求的医学 LLM 的从业者提供了指南。在部署方面,我们比较了不同 LLM 在各种医疗任务上的表现,并进一步与最先进的轻量级模型进行了比较,旨在清晰了解 LLM 在医学领域的独特优势和局限性。
总的来说,本综述回答了以下研究问题:
- 开发医学 LLM 的实践是什么?
- 如何在医疗设置中衡量 LLM 的医疗任务表现?
- 医学 LLM 在实践中如何被应用?
- 使用医学 LLM 时会遇到哪些挑战?
- 如何更有效地开发和部署医学 LLM?
通过回答这些问题,我们旨在为 LLM 在医学领域的机会和挑战提供洞见,并作为构建有效医学 LLM 的实践资源。
医学 LLM 的开发实践
开发医学专用大语言模型通常遵循通用预训练与领域微调相结合的路径。基础模型架构多基于 Transformer 变体,参数量从数十亿到千亿不等。数据源是决定模型性能的关键因素,主要包括公开的生物医学文献(如 PubMed)、电子健康记录(EHR)脱敏数据、医学教科书及临床指南。
开发者需注意数据清洗的质量,去除噪声和隐私信息。微调阶段常采用指令微调(Instruction Tuning)技术,使模型能够理解医生的查询意图。此外,检索增强生成(RAG)技术也被广泛应用,通过外挂医学知识库来减少模型幻觉,确保输出内容的准确性。
医疗任务的表现衡量
在医疗场景下评估 LLM 表现不能仅依赖传统的 NLP 指标(如 BLEU、ROUGE),而需引入临床相关性评估。
- 基准测试:使用 MMLU-Med、MedQA 等权威数据集进行标准化测试。
- 专家评估:由执业医生对模型生成的诊断建议、治疗方案进行评分,关注安全性、准确性和可解释性。
- 幻觉率检测:统计模型生成事实性错误信息的比例,这在医疗领域尤为关键。
- 任务完成率:在实际工作流中,模型辅助完成病历书写、报告摘要等任务的效率提升程度。
应用场景分析
医学 LLM 的应用正在从辅助工具向核心决策支持系统演进,主要涵盖以下领域:
- 临床辅助诊断:根据患者症状描述提供鉴别诊断列表,帮助医生缩小排查范围。
- 医疗文书处理:自动生成门诊病历、出院小结,减轻医生行政负担。
- 患者教育与咨询:以通俗易懂的语言解释病情和治疗方案,提升患者依从性。
- 医学科研:快速梳理文献综述,提取关键数据,加速新药研发和病理分析。
- 医学教育:作为虚拟导师,为医学生提供病例模拟和知识问答。
面临的挑战
尽管前景广阔,但医疗 LLM 的落地仍面临严峻挑战:
- 数据隐私与安全:医疗数据高度敏感,如何在模型训练和使用过程中保护患者隐私符合 HIPAA 等法规要求。
- 责任归属:当模型给出错误建议导致医疗事故时,责任应由开发者、医院还是医生承担,法律界定尚不明确。
- 模型幻觉:LLM 可能编造不存在的药物或疗法,在医疗领域这种错误可能是致命的。
- 偏见与公平性:训练数据若存在人群偏差,可能导致模型对不同种族、性别患者的诊断结果不公。
- 系统集成:将 LLM 无缝集成到医院现有的 HIS、EMR 系统中,涉及复杂的接口适配和工作流重构。
未来方向与建议
为了克服当前挑战并推动医疗 LLM 的健康发展,需要多方协同努力:
- 跨学科合作:加强医生与 AI 研究者的沟通,确保技术设计符合临床实际需求。
- :坚持'人在回路'(Human-in-the-loop)原则,关键决策必须由医生最终确认。


