【论文阅读】Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reason
论文链接:https://arxiv.org/pdf/2506.07044
Code: https://alibaba-damo-academy.github.io/lingshu/
来源: arXiv

摘要
核心背景与问题: 多模态大语言模型(MLLMs)在理解诸如风景、家居物品和公共事件等常见视觉元素方面已展现出令人印象深刻的能力,这主要归功于它们拥有大规模的数据集和先进的训练策略。然而,它们在医学应用中的有效性仍然有限。 原因是医学场景中的数据和任务与通用领域存在着固有的差异。具体来说,现有的医学 MLLMs 面临以下几个关键限制:
- 医学知识覆盖有限(Limited Knowledge Coverage): 它们的医学知识覆盖范围有限,往往仅限于影像学知识,未能扩展到影像之外的广阔医学领域。
- 易产生幻觉(Heightened Susceptibility to Hallucinations): 由于数据整理过程不够优化,这些模型对幻觉(即生成错误或捏造的信息)的敏感性更高。
- 缺乏专业推理能力(Lack of Reasoning Capabilities): 它们缺乏针对复杂医学场景量身定制的推理能力。
提出的解决方案与贡献: 为了应对这些挑战,研究者提出了一套全面的解决方案:
- 数据整理与构建: 构建了一个富含广泛医学知识的多模态数据集。
- 高效获取丰富的医学知识数据: 不仅从医疗影像中获取数据,还从广泛的医学文本和通用领域数据中高效获取丰富的医学知识。
- 合成准确的医学样本: 合成准确的医学描述(captions)、视觉问答(VQA)以及推理样本(例如Chain-of-Thoughts,CoT)。
- 核心模型 Lingshu(灵枢): 基于整理好的数据,研究者引入了他们专门用于医疗领域的 MLLM:Lingshu。
- 多阶段训练: Lingshu 经过多阶段训练,以逐步嵌入医学专业知识并增强其任务解决能力。
- 强化学习探索(Reinforcement Learning Exploration): 此外,他们初步探索了应用带有可验证奖励(verifiable rewards)的强化学习范式,以增强 Lingshu 的医学推理能力。
- 统一评估框架 MedEvalKit: 它整合了领先的多模态和文本医学基准测试,用于标准化、公平和高效的模型评估。
评估与结果: 研究者评估了 Lingshu 在三个基础医学任务上的性能:
- 多模态问答(multimodal QA)
- 基于文本的问答(text-based QA)
- 医学报告生成(medical report generation)。
主要结果显示:
- Lingshu 在大多数任务上始终优于现有的开源多模态模型。
- 此外,研究者进行了五个与现实世界场景紧密结合的案例研究,证明了 Lingshu 在医疗环境中的实际应用潜力。
1. 引言
MLLMs 的现状与局限性:
- 通用领域取得显著进展: 近期多模态大语言模型(如OpenAI、DeepMind等机构推出的模型)在通用多模态领域(如图像描述、视觉问答和复杂推理)取得了巨大进步,其能力接近专家水平。
- 医疗应用受限: 尽管通用模型表现出色,但它们在医疗应用中的性能仍然受到明显限制。
- 核心挑战——数据差异: 生物医学的图像-文本对与普通的网络内容有着根本的区别,导致通用的视觉助手难以处理医疗场景中的独特挑战。
- 通用模型缺乏医疗知识: 由于缺乏特定领域的医疗视觉知识,这些通用模型在回答生物医学问题时,要么表现出不确定性,要么提供错误信息,甚至产生“幻觉”(即编造事实或错误信息)。
现有医疗 MLLMs 的努力和不足:
- 现有解决方案:构建专用模型: 为了弥补这些差距,近期的研究主要集中于将通用的大语言模型(LLMs)或MLLMs与医疗多模态数据相结合,构建出专门用于医疗环境的专业模型(如LLaVA-Med)。
- 早期模型的局限: 早期的模型(如LLaVA-Med)虽然利用了PubMed等医疗数据进行训练,但其性能仍受限于原始数据质量低和固有噪声问题。
- 新的改进方向: 后续的研究通过改进训练方法和使用更大、更高质量的医疗多模态数据集来解决这些挑战。同时,受“可验证奖励强化学习(RLVR)”等先进后训练技术启发,一些研究开始尝试将RLVR整合到医疗模型的训练中,以增强临床应用中的推理能力。
现有医疗 MLLMs 的三大关键限制: 尽管已取得进展,但现有医疗MLLMs仍面临主要基于知识蒸馏(从先进模型生成数据)的局限:
- 知识覆盖面不足: 医疗任务需要广泛多样的领域特定知识。但当前蒸馏数据主要通过医疗影像提示生成,难以提取药理学、公共卫生和临床背景等方面的关键知识。
- 幻觉风险增加: 许多知识蒸馏过程缺乏额外的标签或监督,完全依赖大型模型的生成能力,从而增加了模型产生幻觉的风险。
- 缺乏复杂推理能力: 现有的蒸馏数据难以解决超越基本图像-文本关联的复杂医疗案例,这些案例往往需要序列性的决策制定。
提出的解决方案:Lingshu 和 MedEvalKit
- 数据
- 数据采集和丰富化: 作者首先提出一种综合的数据整理流程,解决了医疗数据采集的挑战:
- 高效获取丰富的医疗知识数据: 不仅收集多模态医疗数据,还收集大量的医疗文本数据和通用领域的多模态/文本数据。
- 合成准确的医疗数据: 通过一个稳健的流程,生成精确的描述、问答对(QA pairs)以及思维链(CoTs)推理样本。
- Lingshu 模型:
- 基于这些高质量数据,作者开发了专门为医疗领域定制的 Lingshu 模型。
- 多阶段训练: Lingshu 模型采用多阶段训练范式,逐步灌输医疗专业知识,并增强其解决问题的能力。
- 探索 RLVR: 作者进一步探索了可验证奖励强化学习(RLVR)在提升Lingshu多模态医疗推理能力中的作用,并开发了 Lingshu-RL 版本。
- 评估框架(MedEvalKit)
- 标准化评估的必要性: 作者发现当前模型评估通常在孤立、非标准化的环境中进行,缺乏统一的评估框架限制了医疗领域的发展。
- MedEvalKit 的作用: 因此,他们推出了 MedEvalKit,这是一个统一的评估框架,整合了主要的医疗多模态和文本基准,用于高效、标准化的模型评估。
核心实验发现:
- SOTA性能表现: 广泛的实验证明,Lingshu模型(包括7B和32B两种参数配置)在大多数多模态和文本医学视觉问答(VQA)任务以及报告生成任务上,始终保持着**最先进(SOTA)**的性能。
- 超越顶尖竞品: 特别值得注意的是,在医学VQA任务中,Lingshu-32B的性能显著优于所有竞争对手,其平均准确率比第二好的模型高出7.2个百分点,甚至超越了像GPT-4.1和Claude Sonnet 4这样的专有模型。
- 数据和知识的重要性: 通过全面的消融研究(Ablation Studies),研究人员进一步证实了数据质量和医学知识覆盖范围对整体性能的决定性作用,从而验证了他们提出的数据整理框架的有效性。
- 实际应用潜力: 最终,通过案例研究(Case Study),Lingshu展示了其在广泛的医疗应用中的巨大潜力,包括医学报告生成、医疗支持辅助和临床手术辅助。
研究的四大贡献(Contributions):
- 数据(Data):
- 引入了一种新颖的数据整理流程(data curation pipeline)。
- 该流程能够有效地从各种资源中收集医学知识,并合成高质量的医学图像描述(captions)、问答对(QA pairs)以及思维链推理样本(CoT reasoning samples)。
- 训练(Training):
- 提出了特定于医学领域的多模态大语言模型 Lingshu,提供了7B和32B两种参数规模。
- Lingshu模型采用量身定制的多阶段训练范式,逐步将广泛的医学知识注入模型中,并增强其解决问题的能力。
- 此外,研究还探索了 “基于可验证奖励的强化学习”(RLVR) 在改进多模态医学推理中的作用,并开发了Lingshu-RL版本。
- 评估(Evaluation):
- 提出了 MedEvalKit,这是一个统一的评估框架。
- 该框架整合了主要的多模态和文本医学基准(benchmarks),从而简化了模型评估,并推动了医学领域标准化性能评估的进步。
- 性能(Performance):
- 通过严格的实验验证,Lingshu证明了其在多种多模态和文本医学VQA任务以及报告生成方面均达到了最先进的性能。
2. 数据整理

核心策略:
- 全面收集多样化的医学知识源:这不仅包括医学多模态数据集(即图像和文本配对的数据),还包括大量的医学文本,以及通用领域的多模态/文本数据。目标是构建一个广博且多样化的知识基础。
- 合成高质量的医学数据:通过一个鲁棒(可靠)的数据管道,合成高质量的医学数据。这些合成数据包括生成详细的图像描述(captions)、基于光学字符识别(OCR)的样本、问答对(QA pairs),以及思维链(Chain-of-Thought, CoT)推理示例。
详细步骤:
- 数据收集(Data Collection)
- 多模态医学数据(Multimodal Medical Data):目标是增强 Lingshu 对医学图像的理解以及在下游任务中的性能。
- 单模态医学数据(Unimodal Medical Data):包括独立的医学图像和医学文本。这些数据用于丰富领域知识,并作为后续合成数据生成的基础。
- 通用领域数据(General-Domain Data):用于提升模型的一般视觉和语言理解能力。
质量控制: 所有收集到的数据在使用前都要经过严格的质量过滤。每个数据集都经过单独的预处理和清洗,以确保数据的质量和相关性。
- 医学数据合成(Medical Data Synthesis)
- 长篇描述(Long-form captions): 用于提高从图像中提取诊断细节的能力。
- 基于 OCR 的指令数据(OCR-based instruction data): 用于增强模型对医学图像中文字的识别能力。
- 视觉问答(VQA)样本: 用于训练模型执行如诊断、解剖识别和模态分类等任务。
- 蒸馏推理轨迹(Distilled reasoning trajectories): 用于促进高级医学推理能力。
质量保证: 所有合成数据都必须经过严格的质量控制流程,以确保其准确性和可靠性。
2.1 数据收集
医疗多模态数据收集
医疗多模态数据收集: 将现有的多模态医疗数据分为两大类,并将其纳入 Lingshu 的训练集,以支持模型学习广泛的医疗多模态任务。
- 医疗图像描述数据: 这类数据将一个或多个医疗图像与描述性文本配对,旨在促进视觉和文本模态之间的语义对齐。
- 医疗多模态指令数据: 这类数据包括图像-指令对,其中包含两种主要类型:
- 医疗视觉问答(VQA)数据: 包含关于医疗图像的开放式或多项选择问题。
- 医疗报告数据: 由放射学报告组成,这些报告详细描述了临床发现和印象。

医疗单模态数据收集
医疗单模态数据收集: 为了增强 Lingshu 的领域知识并支持数据合成,研究人员还收集了医疗文本指令数据和医疗图像数据。
1. 医疗文本指令数据: 基于监督微调(SFT)对医疗指令数据能有效注入医学知识的发现,研究人员将此类数据纳入训练语料库,以增强 Lingshu 的领域知识。收集的数据涵盖四个主要类别:
- 医疗事实问答(QA): 包括关于医学知识的自由格式和多项选择问题。
- 提炼的推理数据 (Distilled Reasoning Data): 由大型推理模型标注的、带有逐步推理路径的答案作为补充。
- 医患对话 (Patient-Doctor Dialogues): 包含患者提问和医生相应回复的单轮交流。
- 通用医疗指令数据 (General Medical Instruction Data): 涵盖药物总结和医疗文本翻译等多样化任务。

2. 医疗图像数据 : 这包括原始图像与人工标注的元数据配对,元数据包含所描绘的器官、诊断标签和成像模态。
- 主要用途: 这些数据集主要用于数据合成,用于生成额外的描述和 VQA 样本,以提高医疗图像理解和下游任务性能。
- 特点: 收集的医疗图像数据涵盖了广泛的医疗模态。

通用领域数据收集:
通用领域数据收集: 为了提高医疗 MLLM 的通用视觉理解、文本生成和多模态指令遵循能力,研究人员整合了各种通用领域数据集。
- 目的: 增强模型对广泛视觉-语言任务的泛化能力。
- 数据类型和具体来源:
- 图像描述 (Image Captioning): 使用 LLaVA-1.5 captions 和 PixMo。
- 文本指令遵循 (Textual Instruction-Following): 使用 LLaVA-1.5(文本指令子集)和 OpenHermes-2.5。
- 多模态指令遵循 (Multimodal Instruction-Following): 使用 LLaVA-1.5(多模态指令子集)和 ALLaVA。
数据清洗
数据清洗过程: 为了确保构建的Lingshu模型所依赖的数据集具有高质量和可靠性,研究人员实施了严格的数据清洗流程,分别针对医疗多模态数据(图像和文本)和医疗文本数据。
- 医疗多模态数据清洗
- 图像过滤: 移除尺寸小于64像素的图像。这样做的目的是淘汰低分辨率或内容信息量不足的图像。
- 图像去重:使用感知哈希 (perceptual hashing) 技术,并设置严格的汉明距离阈值为零,以检测并删除完全重复的图像。
- 在发现重复图像时,只保留其中一个高质量实例。
- 为了加快处理速度,采用了分块去重 (chunk-based deduplication) 技术。
- 应用范围的差异: 对于医疗图像描述 (captioning) 数据集,在所有数据集之间都进行了交叉去重。但对于指令 (instruction) 数据集(如PubMedVision和LLaVA-Med,它们本身冗余度很高),只在数据集内部进行了去重,避免了跨数据集去重,因为同一张图像可能被用于不同的有效指令。
- 文本过滤:
- 对于图像描述样本,排除词元数量少于10个或多于1024个的文本。此举旨在过滤掉过于简短或可能过于冗长且包含噪声的描述。
- 例外情况: 对于指令数据,省略了文本过滤步骤,因为对于指令型任务,简短的回答(例如“是/否”、词组或简短选项)是有效的且需要的。
- 医疗文本数据清洗
- 基于模型的响应清洗
- 针对从在线医疗平台抓取的开放源代码的医患对话数据集(如HealthCareMagic-100k和iCliniq-10k)。
- 这些数据常常包含敏感的身份信息,或者直接提供了明确的诊断和处方建议,这引发了隐私和法律风险。
- 研究人员使用LLaMA-3.1-70B模型来执行清洗:
- 移除与身份相关的内容。
- 修改回复,以避免提供直接的医疗建议。
- 文本去重
- 为了消除多个指令数据集之间的冗余,采用了min-hash局部敏感哈希 (LSH) 技术进行文本去重。
- 对于识别出的近似重复文本,根据其来源的可靠性,只保留质量最高的版本。
- 基于模型的响应清洗
2.2 医学数据合成
医疗长篇描述合成:
目的: 构建更丰富、能捕捉医学图像中关键视觉特征的长篇描述,以弥补现有医疗描述数据集描述深度和简洁性的不足。
方法: 利用医疗图像分割和分类任务中的数据,这些数据包含人工标注的疾病区域、诊断标签以及患者性别、X光视图位置等元数据(Metadata)。这些结构化的事实知识用于合成详细且真实的医疗描述。
数据多样性: 为了确保模型对不同成像类型的视觉感知能力,作者从多种模态中获取数据,并在构建的描述数据集中平衡其数量。
涵盖多种医学影像模态:
- 超声 (Ultrasound): AbdomenUS 。
- 皮肤镜 (Dermoscopy): PAD-UFES-20。
- X光 (X-ray): CheXpert、NIH-Chest-X-Ray、Mendeley Digital Knee X-ray。
- CT: KIPA22、DeepLesion。
- MRI: BraTS2024、Brain-Tumor-MRI、LLD-MMRI、MAMA-MIA。
- 组织病理学 (Histopathology): CPD、Breast-Cancer、PanNuke、EBHI-Seg。
合成过程(五阶段流程): 对于每张图像,作者使用 GPT-4o 生成详细的长篇描述,整个描述合成过程遵循一个五阶段的流程,最终产生了大约 100K 条高质量的医疗图像描述。
- 阶段 1:元数据准备 (Metadata preparation)
- 目标: 为图像提供必要的上下文信息,包括模态、疾病类型、相机视角以及可观察到的患者特征。
- 步骤: 提取数据集元数据,并应用数据集特有的规则将其转换为简短描述(Short Captions)。例如,对于 CPD 数据集,使用染色方法和细胞核评分元数据生成模板化的简短描述。
- 质量控制: 为最大限度减少幻觉(hallucination)风险,根据专家意见排除了图像上无法视觉推断的元数据(如患者年龄),并删除了所有个人身份标识符。同时,手动检索网络上的医学知识来增强标注过程,以弥补 GPT-4o 可能缺乏的领域专业知识。
- 阶段 2:感兴趣区域(RoI)识别 (RoI identification)
- 目标: 在阶段 1 的文本数据基础上,加入互补的视觉信息。
- 步骤: 对于图像分割数据集,通过 RoI 提供疾病或异常定位信息。RoI 可以是分割掩码(Segmentation Masks)或边界框(Bounding Boxes)。边界框直接覆盖在原始图像上;分割掩码则通过计算最小外接矩形转换为边界框。
- 3D 数据处理: 对于 3D 数据集,提取 2D 切片及其沿 Z 轴对应的掩码,并应用相同的边界框渲染程序生成 2D 图像。
- 阶段 3:基于事实知识的标注 (Annotation with factual knowledge)
- 目标: 整合前两个阶段的文本信息和视觉信息,合成图像描述。
- 步骤:
- 对于带有 RoI 标注的数据集:将渲染了边界框的图像、简短描述和检索到的医学知识输入 GPT-4o,生成描述文本。
- 对于缺乏 RoI 标注的数据集(如图像分类任务):使用原始图像和阶段 1 的元数据提示 GPT-4o。
- 可靠性: 由于前两个阶段的视觉和文本输入都是人工标注的,因此生成的描述被认为是高度可靠的。
- 阶段 4:基于医生偏好的标注 (Annotation with doctor preference)
- 目标: 解决阶段 3 描述可能受限于元数据而忽略 RoI 之外的关键视觉细节的问题。
- 步骤: 咨询医疗专业人员,确定他们在解读医学图像时会考虑的关键因素,并将这些见解提炼成任务特定的指令。例如,在 MRI 分析中,临床医生关注序列类型、图像方向、解剖结构和可见异常。然后,使用这些指令引导标注模型(输入原始图像,不含边界框叠加)生成符合专家诊断视角的替代描述。
- 阶段 5:总结 (Summarization)
- 目标: 结合阶段 3 和阶段 4 的输出,使用 GPT-4o 将第3阶段和第4阶段的输出结合起来,为每个医学图像整合出最终的描述。
- 冲突解决: 为了避免信息冲突,第3阶段的描述因其更高的可靠性而被优先考虑
基于OCR的医学指令数据合成
目标和作用: 基于光学字符识别(OCR)的指令数据集旨在增强模型解读嵌入在医学图像中的文本信息的能力。这在现实的医疗场景中非常普遍,例如图像中常常包含患者身份信息、年龄和生物指标等文字元素。
数据集构建方法:
- 数据来源: 我们从在线资源收集生物学和化学科目的考试问题及其标准答案。选择这些科目是因为它们与医学领域紧密相关,并提供了丰富的资源。
- 推理步骤标注: 每个问题都使用 Gemini-2.0-Flash-Thinking (DeepMind, 2025a) 进行详细的推理步骤标注。
- 质量控制: 只有那些答案与标准答案完全匹配的样本才会被保留下来,以确保数据质量。
- 数据格式化: 这些经过验证的问题随后被渲染成图像,从而构成了多模态指令数据。在这种数据中,问题图像作为输入,而文本答案作为输出。
结果: 通过这一过程,总共生成了 5万个 高质量的基于OCR的样本。

医学VQA(视觉问答)数据合成
目标和作用:医学诊断、解剖结构识别和模态分类是多模态大型语言模型(MLLMs)执行各种医学多模态任务所需的核心能力。为了增强 Lingshu 在这些领域的能力,我们通过两种互补的策略合成额外的医学 VQA 数据:基于模板的方法和基于自指令的方法。
- 基于模板的方法 (Template-based method)
- 原理: 这种方法利用人工标注的元信息(例如,来自公共医学影像数据集的异常标签)来构建 VQA 样本。
- 实施步骤:
- 提取包含与解剖结构、异常或成像模态相关的标签的数据集。
- 针对每种标签类型,手动设计问题模板。
- 标准答案直接来源于原始标注。
- 干扰选项则从相应数据集的标签空间中进行采样。
- 优势: 这种方法能够结构化地生成高质量的 VQA 数据(这一过程的示例在图4中展示)。
- 基于自指令的方法 (Self-instruct-based method)
- 原理: 为了增加问题的多样性和语言上的变化,我们利用 GPT-4o 从医学描述数据集中的(图像,描述)对生成 VQA 样本。
- 实施步骤:
- 使用少样本格式提示 GPT-4o。
- 种子示例(seed examples)取自开源医学 VQA 数据集,这些示例展示了侧重于诊断和解剖学的提问方式。
- GPT-4o 基于提供的图像描述,生成一个问题、选项和正确答案。
- 优势: 这种方法能够实现更具变化和更自然的问题表述

医学推理数据蒸馏
背景与挑战: 目前大多数现有的开源和本文合成的医学指令数据(主要由简答题和多选题构成)缺乏对潜在推理过程的明确标注。这意味着模型在学习答案时,无法直接学习到得出该答案的逻辑步骤。
目标:通过“蒸馏”推理数据,增强模型在复杂医学情景下的推理能力(CoT,即 Chain-of-Thought,思维链)。
实施方法:
- 工具选择: 使用 GPT-4o 来生成思维链(CoT)推理路径。
- 数据范围: 针对一部分多模态和文本指令数据进行推理路径生成。
- 输入信息: 对于每个数据样本,向 GPT-4o 提供:
- 问题 (question)
- 标准答案 (ground-truth answer)
- 如果适用,提供答案选项 (answer options)
- 如果适用,提供相应的医学图像 (medical image)
- 指令要求: 要求 GPT-4o 生成一个逐步的推理路径,并且在生成过程中不得依赖或明确引用标准答案。
- 质量控制: 实施一个基于大语言模型(LLM-based)的验证过程。具体来说,GPT-4o 会评估推理轨迹与标准答案之间的一致性。被认为不一致的样本将被排除在最终的数据集之外。
数据集总结:
数据量与组成: 通过数据收集和合成pipeline,最终得到了:
- 375万 个高质量的开源医学样本。
- 130万 个高质量的合成医学样本。
质量保证措施: 对所有样本都进行了严格的质量检查,以确保整体数据质量:
- 防止数据污染: 为了避免训练数据与评估基准数据之间产生重叠,我们进行了严格的图像和文本去重操作,排除了与 MedEvalKit 评估基准中重叠的任何图像和样本。
- 模态分布分析: 考虑到许多多模态数据集缺乏明确的模态标注,我们采取了以下措施:
- 训练了一个基于 BiomedCLIP 模型 的模态分类器。
- 利用该分类器来推断未标注样本的模态。
结果:
- 图5展示了由此得到的模态分布。
- 我们的数据集涵盖了超过12种医学成像模态,这大大增强了 Lingshu 模型在广泛模态下的通用性和在医学下游任务中的适用性。

3. 模型训练

Lingshu 模型基于 Qwen2.5-VL 模型架构构建,Qwen2.5-VL 包含三个核心组件:一个大型语言模型(LLM)、一个视觉编码器和一个基于 MLP 的投影仪。Lingshu 采用了 Qwen2.5-VL 两种参数规模的版本作为基础模型,即 7B-Instruct 和 32B-Instruct。选择这些 Instruct 版本主要基于两个原因:
- 由于这些模型本身具备图像理解和指令遵循能力,因此在训练过程中所需的对齐数据(alignment data)要少得多。
- 它们支持在对齐阶段直接使用指令格式的数据。
因此,Lingshu 可以从初始训练阶段就采用指令式数据格式,这促进了多阶段训练流程的一致性,减少了额外指令对齐的开销,简化了训练过程,并增强了整体训练的稳定性。
3.1 训练方案
Lingshu 的训练建立在多模态大型语言模型(MLLMs)的现有进展之上,并开发了一个多阶段训练框架,旨在逐步使其基础模型适应医疗领域。这个框架遵循“从浅到深”(shallow-to-deep)的渐进过程,包含四个顺序阶段:
- 医疗浅层对齐 (Medical Shallow Alignment):
- 目的: 构建针对医疗场景的稳健视觉-语言基础。
- 内容: 使用一小部分医疗图像-文本对对模型进行微调,使其能够准确编码医疗图像并生成相应的描述。
- 效果: 促进模型对视觉医疗内容的初步理解。
- 医疗深度对齐 (Medical Deep Alignment):
- 目的: 加深模型在医疗领域的知识并实现更细粒度的视觉-语言对齐。
- 内容: 在浅层对齐的基础上,引入更大、更高质量、语义更丰富的医疗图像-文本对数据集。
- 医疗指令微调 (Medical Instruction Tuning):
- 目的: 增强模型在实际医疗环境中的实用性。
- 内容: 提高模型理解和执行各种医疗用例中特定任务指令的能力。
- 效果: 增强模型对下游任务的泛化能力。
- 医疗导向的强化学习 (Medical-oriented Reinforcement Learning):
- 目的: 进一步探索强化学习在医疗推理中的有效性。
- 内容: 引入可验证奖励的强化学习 (RLVR) 范式。
- 效果: 旨在加强模型的医疗推理能力、解决问题的能力和可解释性。
Lingshu 模型是在完成了前三个阶段的训练后得到的。进一步探索了强化学习的有效性后,形成了 Lingshu-RL 版本。
医疗浅层对齐
目标: 医疗浅层对齐阶段的目标是在不同医学成像模态及其对应的文本描述之间建立有效的对齐。这种对齐增强了模型理解和解释医学图像的能力,为后续的医学知识整合奠定了坚实的基础。
实施细节:
- 冻结LLM(大语言模型): 在此阶段,LLM被保持冻结状态,而只有**视觉编码器(vision encoder)和投影层(projector)**使用粗略标注的医学图像-描述数据进行微调。
- 冻结LLM的原因: 这是一个有意的选择,因为用于该阶段的粗略描述数据通常简短且信息稀疏。让LLM接触这些有限的文本内容可能会损害其语言生成能力。
- 训练视觉编码器和投影仪的作用: 训练视觉编码器和投影仪能使模型更好地将医学视觉特征映射到LLM的表征空间。
- 使用粗略标注数据的原因: 选择粗略标注的数据是基于其较低的语义复杂性,这有助于模型快速学习医学成像模态的一般特征。这不仅有效地调整了视觉编码器的输出,使其更好地与LLM对齐,还有助于加快训练速度和提高收敛稳定性。
- 使用的数据集: 粗略标注的医学图像-描述数据包括两个数据集:PMC-OA和ROCO,这些数据集的描述相对简短和简洁。
医疗深度对齐
目标: 医疗深度对齐阶段的目标是全面地将医学知识整合到多模态大语言模型(MLLM)中,从而增强其理解多样化医学概念和适应各种临床环境的能力。
实施细节:
- 解冻所有参数: 为了实现这一目标,模型的所有参数,包括LLM、视觉编码器和投影层,都被解冻,允许进行端到端的微调。此过程旨在提高模型的多模态知识整合能力及其解释复杂医学视觉数据的有效性。
- 使用更丰富的数据集: 相比浅层对齐阶段,训练中使用的是一套内容更加多样化和丰富的医学图像-文本对。
- 多样性扩展: 数据集在模态多样性、语言复杂性和结构完整性方面显著扩展。它包括来自不常见医学成像模态的图像、更长且更结构化的描述,以及从医学图像分类和分割任务中生成的合成图像-描述对。
- 纳入通用领域数据: 高质量的通用领域多模态图像-文本数据也被纳入到训练过程中,与医学数据一起进行联合训练。
- 联合训练的好处: 这种联合训练不仅有助于保持模型的通用多模态能力,还使其接触到更广泛的视觉格式,例如图表、表格、图形、数学和科学插图。
- 在医疗背景下的重要性: 这种结构化视觉元素的学习对于医疗环境尤其有益,因为诊断报告通常包含实验室表格、时间序列生理曲线和病理图等,这些视觉格式在分布和语义上与自然图像有显著不同。通过从这些通用领域示例中学习,模型获得了图表解释和符号推理的可迁移技能,从而能够更精确地分析临床场景中的异常生理指标、病灶测量及其时间动态。
医学指令调优
核心目标与方法:
- 指令遵循能力的精炼: 这一阶段是为了确保模型能够准确理解并执行用户提出的各种任务指令,使其输出结果与用户意图精确对齐。
- 全参数优化: 为了适应广泛的临床应用场景,这一阶段会解锁所有参数(包括LLM、视觉编码器和投影器),并对整个模型进行大规模、端到端的优化。
训练数据的特点和作用: 训练语料库超越了传统的指令格式(如图像描述、问答对、多项选择题),主要通过整合收集和合成的、以场景为导向的查询来增强模型的能力。
- 广泛的场景覆盖: 这些查询涵盖了诊断、临床检查、医学知识检索、临床报告生成和解剖结构定位等多个方面,显著增强了模型的领域能力。
- 平衡视觉信息偏见:
- 训练语料中加入了经过严格筛选的高质量通用领域数据和医学文本数据。
- 这种整合有助于平衡图像-文本对数据固有的以图像为中心的信息偏见。
- 从而扩展了模型的概念范围,使其超越视觉内容本身,培养对医学知识的更全面的理解。
- 复杂数据格式的整合: 训练数据中包含更高级和复杂的格式,例如:
- 多图像推理任务: 需要同时分析多张图像。
- 多轮对话: 模拟真实的医患或医生间沟通。
- 需要详细推理过程(Chain-of-Thoughts, CoT)的查询: 这种数据要求更深层的分析敏锐度。
- 这种多样化和复杂的训练数据使MLLM能够以更高的精度和分析能力应对复杂的临床情况。
具体数据集概括: 该阶段使用的数据集根据领域(医疗或通用)和模态(多模态或文本)进行分类:
| 数据集类别 | 来源和目的 |
|---|---|
| 医学多模态子集 | 包含多个公共医学指令数据集,但为避免训练中引入局部视图偏见(即仅关注图像特定区域),补充了高质量的描述数据集(如ROCOv2、PubMedVision、MIMIC-CXR),以促进整体视觉理解。此外,还加入了临床报告生成数据集(CheXpert Plus、IU-Xray),并合成了OCR、QA和CoT数据。 |
| 通用多模态子集 | 选用了公开的经过指令调优的版本,如LLaVA-1.5和ALLaVA。 |
| 医学文本子集 | 整合了来自各种公共来源的数据,并通过自动合成流程生成了指令数据,并进行了严格的质量验证。特别纳入了长篇医学推理数据集(主要从OpenAI-o1和DeepSeek-R1中提取),这些数据集提供全面的医疗问题分析,有效增强了模型的医学知识。 |
| 通用文本子集 | 利用了两个公共数据集:LLaVA-1.5的纯文本部分和OpenHermes-2.5。 |
医疗导向的强化学习
背景和动机:近年来,推理模型(如 OpenAI 的 o 系列和 DeepSeek-R1)通过先进的后训练策略,在复杂任务上树立了新的基准。这些改进的核心是可验证奖励的强化学习(RLVR),其中 Group Relative Policy Optimization (GRPO) 因其高效性和有效性而成为一种重要的方法。GRPO 已被广泛应用于训练多模态大型语言模型(MLLMs)以增强推理能力,并且也被应用于医疗领域,以提高模型的泛化能力、可解释性和可靠性。
传统 SFT (Supervised Fine-Tuning) 的局限性:
- 过度依赖答案监督: 这可能导致模型过拟合和捷径学习,在医疗场景中尤其有害。
- 缺乏对审慎推理技能的促进: SFT 对模型自主发现推理路径的能力提升有限。
RLVR 的优势和 Lingshu 的采用:RLVR 通过奖励信号鼓励模型自主发现推理路径,而不是依赖于答案记忆或教师指导的思维链(CoT)模仿,从而解决了 SFT 的这些问题。因此,Lingshu 采用了 GRPO 方法进行训练,利用精心策划的医疗可验证数据集。
医疗可验证数据集的构建:
- 数据来源和后处理: 数据来源于多个医疗资源,并经过严格的后处理。
- 格式调整: 由于收集到的大多数样本是多项选择题(MCQA)格式,为了增加难度并保持可验证性,将那些答案为单词或短语的样本重新组织为开放式问题。这也有助于实现 MCQA 和开放式问答之间的数据平衡。
- 平衡二元问题: 具有二元答案(例如“是”/“否”)的问题被降采样到数据集的大约 5%,以减轻由于过度表示而可能产生的偏差。
- 数据选择: 根据样本的模态和查询格式进行选择,以确保数据平衡。
- 数据集大小: 总共收集了 10 万个样本作为 RL 阶段的训练集。
- 奖励设计: 遵循常见的实践,使用严格的格式奖励和准确性奖励,权重分别为 0.5 和 1。
3.2 实施细节
Lingshu 基础模型: Lingshu 基于 Qwen2.5-VL-Instruct 模型的两个变体(7B 和 32B 参数规模)构建,并通过持续训练进行优化。
标准训练流程(非 RL 阶段): 标准训练流程包括三个主要阶段,形成 Lingshu 模型:
- 医疗浅层对齐(Medical Shallow Alignment)。
- 医疗深度对齐(Medical Deep Alignment)。
- 医疗指令微调(Medical Instruction Tuning)。
优化器和调度器: 在所有阶段,均采用 AdamW 优化器配合余弦学习率调度器,预热步长为 100。
序列长度和批次大小:
- 最大序列长度设置为 8,192 token;
- 每个设备的训练批次大小为 1,梯度累积步长为 8。
各阶段具体设置:
- 医疗浅层对齐: LLM 保持冻结,仅对视觉编码器和投影层进行微调 1 个 epoch,学习率分别为 2e-6 和 1e-5。
- 医疗深度对齐和医疗指令微调: 解冻 LLM,并以 1e-5 的学习率进行微调,同时保持视觉编码器和投影层相同的学习率。这两个阶段分别训练 1 个和 2 个 epoch。
- 数据打包: 在医疗指令微调阶段使用了数据打包以提高效率,初步实验显示这不会影响模型性能。但在医疗浅层和深度对齐阶段没有使用数据打包,因为这些阶段的医学图像-文本数据中包含大量短文本样本,打包可能导致梯度稀疏、训练动态受损,以及收敛不足,从而显著降低模型性能。
面向医疗的 RL 阶段(Lingshu-RL):
- 初始化: 从 Lingshu 检查点初始化训练。
- 方法: 使用 GRPO 算法进行 1 个 epoch 的训练。
- 优化器: 采用 AdamW 优化器。
- 序列长度: 最大序列长度设置为 4,096 token(低于前阶段的 8192,因为初步实验显示大多数医疗样本产生的输出较短)。
- 批次大小: Rollout 批次大小为 512,全局批次大小为 128。
- 超参数: 学习率为 1e-6,采样温度为 1.0,KL 散度损失系数为 1e-3。
- 采样: 为每个提示采样 16 个响应。
- 结果模型: 训练后的模型命名为 Lingshu-RL。
4. MedEvalKit
背景和必要性:近年来,医学大模型在多个任务上取得了显著的进展,但缺乏统一的评估体系导致不同模型的性能难以公平、准确地比较。每次重复模型测试或在不同环境下部署,都需要耗费大量时间与计算资源。这不利于模型的持续优化和应用推广。因此,设计一套系统、科学的评估框架,对衡量模型能力、发现其优势与不足、指导后续改进具有重要意义。
现有评估框架的局限性:尽管已有一些评估工具,如LMMs-Eval、Eval-Harness和VLMEvalKit,用于多模态任务的评测,但它们主要是为通用多模态任务设计,缺乏专门针对医学任务的能力。具体问题包括:
- 数据覆盖面有限,难以全面反映医学知识的复杂性;
- 适应性不足,难以充分衡量医学模型在专业场景中的表现;
- 评测过程中可能引入偏差,影响评价的客观性和一致性。
MedEvalKit的创新点:为了克服上述限制,MedEvalKit设计了一个多维度、全面的评估体系,具有以下特点:
- 集成多样化的医学基准与任务类型:支持多项代表性医学任务,包括多模态理解、文本理解、问答、报告生成等,覆盖广泛的医学应用场景;
- 多种题型支持:既有选择题、闭合式问答,也有开放式问答和医学报告自动生成,适应不同评估需求;
- 多模态和纯文本输入兼容:可同时评估医学模型的图像、文本理解能力,或仅文本任务,从而实现统一检测;
- 数据处理标准化:制定了统一的数据预处理和后处理规则,确保评测过程规范、一致;
- 便捷的部署和评估流程:提供一键式的模型集成和推理接口,极大地提高效率,支持快速验证多个模型;
- 稳定可靠的评估结果:
- 结合规则基础的客观指标(如精度、召回率)与基于大模型(LLM)的主观判断(模型“当法官”),增强评价的权威性和可信度;
- 使用“vLLM”等技术实现高吞吐量、多任务同步评测,以支持大规模模型的快速对比。
4.1 大型医学评估基准
数据集概述:
- 精选了包含16个基准测试数据集的主流医学评估数据,总共涵盖152,066个评估样本。
- 这些样本涉及121,622张不同的医学影像,总结了多种医学影像模态。
- 这些数据集覆盖的医学影像类型包括X光、CT、MRI、PET、超声、显微镜图像、病理图像、光学相干断层成像(OCT)、皮肤镜、胃肠(GI)检验、内窥镜、眼底图像,以及各种医学图表、表格和示意图。
多模态问答(Multimodal QA):
- 采集了多个公共的医学影像问答测试集,这些包括:VQA-RAD、SLAKE、PathVQA、PMC-VQA(版本2)、OmniMedVQA、MMMU和MedXpertQA。
- 这些数据集涵盖多种医学成像模态,类型丰富,涵盖X光、CT、MRI、超声、显微镜、病理、光学断层扫描、皮肤镜、胃肠内窥镜、眼底照相等。
纯文本问答(Text-only QA):
- 收集了多个纯文本医学评估基准的测试集,比如:MMLU(大规模多任务学习评估)、PubMedQA、MedMCQA、MedQA-USMLE、MedBullets、MedXpertQA和SuperGPQA。
- 这些数据集中,作者特别选择了MedXpertQA的文本部分、按照Wang等人的划分提取了MMLU中的医学相关问题,以及按照官方划分使用了SuperGPQA的测试集。
报告生成(Report Generation):
- 使用了三个权威的医学报告生成基准:MIMIC-CXR、IU-Xray和CheXpert Plus。
- 这些数据集主要是胸部X光影像与对应的放射学报告对照。
- 作者还按照提示过滤掉了无关“发现”和“印象”的样本,以保证数据的质量。
标准化输入和评估数据:
- 所有问题的输入格式都进行了标准化,采用了官方推荐的对话模板。
- 图8展示了不同类型问题的输入提示格式。

4.2 评估策略
不同任务使用不同的评估指标,例如:
- 问答(QA)采用准确率(Accuracy) 作为主要指标。
- 多项选择题采用两步策略:首先利用规则匹配答案选项,其次用官方的代码库比对相似度,选出最高的答案。
- 开放性问答则用OpenAI的GPT-4.1模型来评估模型输出和参考答案的一致性。
- 报告生成任务则采用“多指标评估”方式,包括:
- 语义指标:Rouge-L和CIDEr,用以衡量生成报告与参考答案的相似度。
- 模型指标:Leverage ReXrank,利用SembScore和RaTEScore评价生成报告的质量。
- 复合指标:RadCliQ-v1,综合多项指标,全面评估模型表现。
5. 实验
5.1 实验设置
模型选择:
- 专有模型(Proprietary Models):选择当前最具代表性的商业封闭模型,包括OpenAI的GPT-4.1(2025年4月版本)、Anthropic的Claude Sonnet 4(2025年)、以及DeepMind的Gemini-2.5-Flash(2025年5月20日预览版)。
- 医学专用的多模态大模型(Medical MLLMs):采集多款专门面向医疗领域的开源模型,如BiomedGPT、Med-R1、MedVLM-R1、MedGemma、LLaVA-Med、HuatuoGPT-V、BioMediX2、HealthGPT和MedDr等。
- 通用型大模型(General-purpose MLLMs):包括Qwen2.5-VL-Instruct、InternVL2.5、InternVL3等,用于评估灵枢在非专用模型中的表现。
评测标准:为了确保评估的公平性和一致性,所有模型都在一个统一的评测平台——“MedEvalKit”中进行测试。
5.2 医疗多模态基准测试性能比较
在七个医疗多模态测试基准中,灵枢不同大小的模型(尤其是7B和32B版本)表现优异。

- 7B模型的灵枢在参数较少的开源模型中(参数少于10亿)表现最佳,平均得分达61.8分,比类别中的最佳模型高出4.5分,显示出巨大的竞争力。
- 在五个基准测试(SLAKE、PathVQA、PMC-VQA、OmniMedVQA和MedXpertQA)中,灵枢模型都排名第一,例如在PathVQA中以61.9分远远领先于第二名“MedGemma-4B-IT”的48.8分。
- 32B模型的灵枢达到了66.6的平均最高分,超过了所有对手(包括商用模型和其他开源模型),验证了其在医疗多模态任务中的优越性。
5.3 医疗文本基准测试性能比较
尽管灵枢主要设计用于多模态任务,但在纯文本的诊断和医疗问答任务中也表现出色。

- 7B版本在少于10亿参数的开源模型中,平均表现最好,领先于其他模型,尤其是在PubMedQA(76.6分)、MedQA-USMLE(63.3分)、Medbullets(56.2分)和MedXpertQA(16.5分)四个关键测试中排名第一。
- 32B版本的灵枢在更大规模下表现更佳,不仅在六个基准中排名第一,还比第二名InternVL3-38B平均多获得3.4个百分点的准确率。
- 虽然灵枢在多个方面取得了优异的成绩,但与领先的封闭(专有)系统如GPT-4.1、Claude和Gemini-2.5-Flash相比,仍存在差距,特别是在深度临床推理和广泛医学知识的理解方面。未来的目标是通过不断优化模型设计、提升适应能力和推理能力,缩小这一差距。
5.4 报告生成基准性能比较

评估了模型在医疗报告自动生成任务上的表现。这些任务具有高临床实际应用价值,评估的主要基准包括三种广泛采用的医疗影像报告生成数据集:
- MIMIC-CXR(胸部X光图像)、
- CheXpert Plus(扩展的ChestX-ray报告集)
- IU-Xray(胸片报告数据集)
从结果可以看出,对于参数少于10亿的模型,灵枢(Lingshu-7B)在所有三个数据集上都表现优异,所有指标中基本都排名第一或第二。特别是在较大模型(参数超过10亿)中,不同模型之间的性能差异变得更加明显。例如,参数达32亿的Lingshu-32B在几乎所有指标上都表现出色,整体排名领先,包括IU-Xray的得分几乎是其他模型的两倍。
值得注意的两个经验观察:
- 关于模型规模和性能的反直观现象:在MIMIC-CXR和CheXpert Plus数据集上,较大的模型(如Lingshu-32B)偶尔还会表现比较小的模型(如Lingshu-7B)略低。这或许是因为较大模型会生成更加详细和风格多样的描述,而现有的自动评估指标(如BLEU、ROUGE等)对这些丰富、多样的文本细节未能给予充分的奖励。这说明,当前的自动评估方法不足以全面评价医疗报告的质量,需要开发更加复杂和符合临床实际的评估标准。
- 模型在不同任务间的表现差异:虽然InternVL系列模型在多模态问答(VQA)等任务中表现不错,但在医疗报告生成任务中的表现明显不如预期,出现“任务偏差”。这反映了只有在基准测试中的优异表现,并不一定代表其在实际临床应用中具有同样的有效性。强调了在模型部署时,应考虑任务相关性和具体应用场景,不能仅凭单一的指标评估模型的整体能力。
5.5 以医用导向的强化学习(RLVR)

作者探讨了用强化学习的方法来提升模型在医学多模态推理方面的能力。结果显示,经过强化学习训练的Lingshu-RL-7B模型,在部分数据集上有轻微提升(如MMMU-Med、PMC-VQA、VQA-RAD),但在其他数据集(如SLAKE、PathVQA和OMVQA)上表现反而略有下降。这说明,目前的强化学习方法尚未达到预期效果,整体表现基本持平。
主要原因分析有两个方面:
- 奖励设计问题:采用的是传统的基于准确率和规则的奖励方式。但医学推理本身是知识驱动的,合理答案尤其在开放性问答中,答案的表述可以有较大变异。单纯的规则奖励难以捕捉答案的医学合理性,可能误导模型优化方向。
- 数据质量问题:很多医学多模态问答问题实际上并不需要复杂推理,比如简单的器官类型识别等,加入这类问题反而会为模型引入噪声,难以有效提升推理能力。当前的训练策略也缺少对这类“非推理”问题的筛选标准,影响了训练效果。
总结来看,当前用强化学习提升医学推理能力还面临挑战,未来需要优化奖励机制,提升数据质量,针对医学特定任务设计更合理的训练策略。
5.6 数据组成消融实验

整体结论:所有的四类数据(即:医学数据、通用数据,结合多模态与文本形式)都对“灵枢”模型的医学多模态任务解决能力贡献巨大。即使有些数据并非专门为医学领域设计,这些数据的结合也能增强模型的表现。特别是医学文本数据,显示出最关键的作用,删除仅173K的样本就显著影响了五个任务的表现。
不同数据类型的作用:
- 医学多模态数据:删除后,模型在像SLAKE、PathVQA、OmniMedVQA等任务上的表现有明显下降。这类任务依赖于病理切片、X光等医学影像,这类数据在医学多模态训练中占据重要地位。
- 通用多模态数据:删除后,对一些任务(如MMMU-Med和PMC-VQA)影响更大。这些任务需要理解复杂格式的医学内容(如公共健康图表等),而此类内容在专门的医学多模态数据中相对较少,因此通用数据的补充对于这类任务至关重要。
假设与启示:
- 研究表明,为了建立具有广泛适用性的医学多模态模型,仅依靠医学多模态数据是不够的。还需要结合医学文本和通用域的数据,以提升模型的鲁棒性和泛化能力。
- 多模态医学知识的获取,不应仅依赖专门的医学多模态数据,还应融入丰富的医学文本信息和更广泛的通用数据。
高价值数据组成部分的作用:
- Medical Caption(Stage 3):在第三阶段保留高质量的Medical Caption数据非常重要。删除后,模型在多个任务(如MMMU-Med、VQA-RAD、PMC-VQA和OmniMedVQA)上的表现明显下降,显示了这类数据在微调后期的重要性。
- 早期Medical Caption(Stage 1&2):若跳过第一和第二阶段,直接用第三阶段的数据微调,模型性能略有下降,说明早期的任务对模型训练的导向作用仍然关键。
- 合成多模态医学数据:删除所有合成数据后,模型在多个任务上的表现(尤其是包含多种影像模态的OmniMedVQA)严重下降。这说明合成数据在丰富模态、多样化医学知识方面起到重要补充作用。
- 提炼的医学推理文本数据:只删除这部分数据(主要是链式推理的高质量文本)就导致多个任务性能大幅下降,几乎等同于删除所有医学文本数据。这强调了医学推理文本中所蕴含的丰富医学知识的重要性。
总结:
- 多模态医学生态中,不同类型的数据各自发挥着不同的作用。
- 医学影像数据对于特定视觉任务至关重要。
- 医学文本和通用数据对理解复杂医学内容、提升模型泛化能力更加关键。
- 高质量的推理文本是丰富医学知识、提升模型推理能力的关键资源。
- 未来在构建医学AI模型时,应结合多源、多模态、多层次的数据,以增强模型的实用性和鲁棒性。
5.7 不同医学影像模态

方法比较:作者以Lingshu-7B(参数规模为7亿)模型,基于其在“OmniMedVQA”多模态医学问答任务中的平均表现,与四个强劲的基线模型进行了对比。这四个模型分别是InternVL-3-8B、InternVL-2.5-8B、HuatuoGPT-V-7B和MedGemma-4B-IT。
评估结果: 在八种不同的医学影像类型中,Lingshu基本上在大部分模态上都表现得与对手持平或优于它们。具体来说:
- 在显微镜、MRI(磁共振成像)、皮肤镜(Dermoscopy)和OCT(光学相干断层扫描)这几种模态上,Lingshu表现出色,尤其适合识别微观纹理和中尺度结构特征。这说明Lingshu特别擅长捕捉高频细节和解剖学的规律。
- 在超声成像(Ultrasound)和眼底摄影(Fundus Photography)方面,表现也颇为亮眼,显示其在带有散斑噪声(如超声)以及细血管图案(眼底图像)这些具有挑战性的领域具有较强的鲁棒性。
- 在CT和X光影像上,Lingshu略微落后于表现最好的模型,但差距并不大。
总结: Lingshu在多种医学影像模态中表现出色,特别擅长微观结构和细粒度特征的识别,整体呈现出一种高效、多能的“通用型高分辨率专家”形象,显示出优越的性能和广泛的适用性。
5.8 训练数据规模

数据量对性能的影响:随着训练样本数量从0%逐步增至100%,模型的准确率整体呈现迅速提升的趋势,尤其是在前25%的数据量增长阶段,效果最为显著;之后,虽然仍有提升,但增速逐渐减缓,趋于平稳,接近100%的数据规模时表现已趋于饱和。
特殊任务的表现:纯影像导向、文本较少的任务(如SLAKE和PathVQA)比起Concept-heavy任务(如MedXpertQA)更早达到性能饱和点。而在整体表现上,从约52%提升到62%的准确率,说明在医学MLLM模型训练中,数据的规模起到了关键作用,但也存在逐渐遇到天花板的可能。
未来的启示:大规模数据收集极为重要,但随着模型性能逐渐接近极限,仅靠增加数据量可能已不再有效,未来提升会依赖于数据的质的提升(如高质量、丰富的标注)或模型架构的创新。
6. 案例研究
6.1 不同医学影像模态下的视觉问答(VQA)能力

这部分通过图11展示了Lingshu模型在八种不同医学影像模态中的视觉问答(VQA)案例。结果显示,Lingshu不仅可以回答关于医学影像的问题,而且还能透明地展现其推理过程,确保其决策具有可靠性。
- 推理轨迹:Lingshu的推理路径模仿了标准的临床诊断流程。例如,在分析胸部X光片时,它会按照“肺部”→“心脏”→“骨骼”→“膈肌”及“肋膈角”的顺序检查解剖区域。这种系统的方法保证了模型可以全面覆盖所有相关的观察点,从而得到较完整的诊断信息。
- 决策优化:模型不会立即做出最终诊断,而是逐步缩小可能性范围。在一个皮肤镜图像的案例中,模型最初假设可能的疾病包括“脂溢性角化病”、“基底细胞癌”以及“皮肌纤维瘤”。随着分析的深入,它逐渐排除“脂溢性角化病”,将焦点集中到“皮肌纤维瘤”上。这种逐步筛选过程,体现了模型的诊断过程既谨慎又符合临床实际,也增强了其决策的可靠性。
6.2 医学诊断能力

图12对比了Lingshu和第二好的模型InternVL3在一次医学诊断中的推理表现。模型根据图像中的“圆顶状视网膜隆起”初步考虑“黄斑水肿”和“黄斑孔”两个诊断。随后,Lingshu结合了“视网膜下液体积累”和“囊状空间”等临床线索,最终确认诊断为“黄斑水肿”。而InternVL3则错误地给出了错误的结论,并且缺乏评估其他可能性,也没有整合额外的视觉证据。由此可以看出,Lingshu的诊断策略更为基于临床,谨慎,确保了结果的可靠性。
6.3 医学知识掌握

除了在临床影像分析上的能力,Lingshu还展现了对专业生物医学知识的深厚掌握。如图13所示,模型能准确解读神经突触内部复杂的生理过程。具体表现为,模型不仅能描述突触的作用,还能精确识别其类型为“去甲肾上腺素能突触”,这是基于对神经递质和受体相互关系的深刻理解。而原始的Qwen2.5-VL模型在理解突触过程中就不够准确,产出大量无关或不连贯的内容,显示其在医学知识应用上的不可靠性。
6.4 公共卫生应用

图14展示了模型在公共卫生中的应用案例。Lingshu能准确从一份队列调查表中提取关键信息,识别吸烟者的发病率为每10万人中58人,非吸烟者仅为每10万人中5人。它随后运用标准公式,计算出归因风险为每10万人中53人。这体现出了模型在处理表格数据、进行公共卫生相关计算,以及准确表达这些结果在群体层面上的意义方面的能力。
6.5 医学报告生成

图15显示了Lingshu自动生成的一份X光报告。报告严格遵循放射科的标准结构,包括“发现”(Findings)和“印象”(Impression)。在“发现”部分,模型正确描述了心脏轮廓和肺部异常,指出了疑似的病变。更值得注意的是,模型还能在报告中加入临床建议,例如建议接受利尿剂治疗后进行复查。这表明,Lingshu不仅能准确检测到影像中的异常,还能提供具有临床指导意义的管理建议,像一位经验丰富的放射科医生。
6.6 患者与医生的对话

图16展示了Lingshu在真实医疗咨询场景中的表现。模型能理解患者的问诊内容,提出合理的差异诊断,并引导患者到相关专科进行进一步检查。同时,模型还能建议合适的诊断测试。这种能力突显了Lingshu作为医疗助手的潜力,能够在医疗咨询及更广泛的医疗支持中发挥重要作用。
7. 相关工作
快速发展与巨大潜力:多模态大型语言模型(MLLMs)在各个领域都取得了显著的进步,尤其在医疗行业引起了广泛关注,推动了该领域的显著进步,展示了它们在医疗场景中的巨大潜能(Tian等,2023;AlSaad等,2024)。
早期研究:最早的尝试是将大语言模型(LLMs)与专门的医疗视觉编码器结合,通过线性变换层实现视觉-语言的对齐,从而实现对医疗图像的理解和分析(Li等,2023a;Moor等,2023;Liu等,2023;Zhang等,2024a)。
后续研究方向:基于基础架构,后续研究采用类似的架构模式,开发更为复杂的医疗MLLMs。这些努力包括:
- 构建更全面的训练数据集(Ikezogwo等,2023;Chen等,2024c;Li等,2025b;Hamamci等,2025)
- 设计精细的训练流程(Nath等,2025;Wang等,2024a)
- 使用高效的微调技术(Lin等,2025)
- 整合专家混合机制(He等,2024)
- 利用强化学习(Lai等,2025;Pan等,2025)来提升模型在不同医疗任务中的表现。
商业专有模型的集成:一些商业“黑箱”模型也集成了医疗知识,如Med-Gemini和Med-PaLM,在多种医疗任务中表现出色(Xie等,2024;Saab等,2024;Yang等,2024;Aydin和Karaarslan,2025;Arora等,2025)。
专门化模型发展:除了通用的医疗MLLMs,许多研究开始开发针对特定疾病或临床场景的专业模型,以支持更精确的下游应用,例如:
- 病理学(Lu等,2024;Wang等,2024c;Zhao等,2024a;Seyfioglu等,2025)
- 放射学(Hyland等,2024;Christensen等,2024;Shui等,2025;Zambrano Chaves等,2025;Pai等,2025;Tanno等,2025)
- 眼科(Deng等,2024)
- 全癌种分析(Keyl等,2025)
- 特定癌症类型(Sammut等,2022;Pai等,2024;Niu等,2025)
发展医学工具的智能代理:利用医疗MLLM的能力,研究人员还在开发扩展模型功能的医疗代理系统,这些系统通过与外部工具集成实现更丰富的应用,如:
本文研究重点:与这些发展方向不同,本文的工作聚焦于开发一种多模态基础模型,支持多种医疗模态,满足问答、诊断、报告生成和多样的临床应用任务,目标是建立一个全面、强大的医疗基础模型。
8. 结论、局限性和未来工作
8.1 结论
在本文中,作者提出了一款名为Lingshu的专业化多模态基础模型,旨在应用于医学人工智能。该模型主要解决了在医学数据构建、模型训练和评估方面的几个关键挑战。具体来说,作者采用了将大规模高质量的医学领域和通用领域语料整合在一起的方法,并建立了全面的数据采集流程,这一流程包括了图片说明、问答对以及链式推理(CoT)标注,从而构建了庞大且多样化的知识库。
模型的训练采取了多阶段策略,逐步增强其对医学知识的理解和解决问题的能力。此外,作者还探索了引入具有可验证奖励机制的先进强化学习方法,以进一步提升模型的性能。在模型开发之外,作者强调了在医学领域实现评估标准化的重要性,于是提出了“MedEvalKit”这一统一的评估框架。这个框架整合了多个多模态和文本任务的基准测试,同时确保了评价的规范性。该工具包让不同模型之间的比较变得公平、可复现、透明。
通过大量实验证明,Lingshu在多项医学视觉问答(VQA)和报告生成任务中表现优越,持续优于开源模型,并在缩小与商业专有模型(如GPT-4等)之间差距方面取得了良好进展。总体而言,Lingshu和MedEvalKit不仅提供了性能优异的模型和可靠的评估工具,还为数据采集、分阶段训练和性能评价提供了基于实证的指导方针。在推动多模态大型语言模型(MLLMs)更好地应用于实际医疗场景方面,具有重要的实际意义和推动作用。
8.2 局限性
- 数据质量与多样性: 尽管收集和整合了大量医学多模态和纯文本数据,取得了一定的效果,但整体数据的质量和多样性仍有待提高。开源的医学多模态数据常存在标注不准确、图像分辨率低、模态分布不均的问题。另外,没有全面的专家医学监督,很多样本是使用专有模型生成的,这可能带来严重的幻觉(即错误信息)和事实性错误。即使经过严格的质量控制和手动验证,这些问题仍可能影响模型的泛化能力。
- 模型性能与泛化能力:虽然Lingshu在某些医学基准任务(如问答和报告生成)中表现出色,但与一些最先进的商业模型(如私有模型)相比,仍存在差距。此外,其在更广泛、多样的医学任务中的泛化能力尚未充分探索。要提高模型的能力,可能需要引入更多不同应用场景和模态类型的训练数据,但这会带来数据整合、预处理和模型设计上的巨大挑战。
- 训练策略和强化学习: 尽管通过消融实验验证了当前训练策略和数据方案的有效性,但最优的数据配置和训练方案仍未完全探索。对于引入的医疗场景强化学习(RLVR),目前的研究仍属初步阶段,虽有一定的效果,但整体影响有限,仍需深入理解其在具体医疗场景中的有效应用方式。
8.3 未来工作
- 高质量医疗数据的构建与管理: 当前高质量、多模态的医学数据(如图像-文本配对)相对稀缺,导致模型的训练效果受限。因此,未来应加强多样化、丰富且高质量的医学图像与文本数据的收集和整理工作。一个关键的挑战在于医疗数据的质量通常需要由专业医学专家进行评估,资源投入大且难以大规模推广。为此,应建立稳健的数据生成和质量控制体系,包括开发专业的评估模型,设计细粒度的数据合成流程,并引入“人工在环”的机制,反复优化数据质量,提高效率和可靠性。
- 打造全面的医学多模态基准测试体系: 目前的医学多模态基准测试(benchmark)尚未充分反映真实的临床复杂环境,难以准确评估模型在实际应用中的表现。比如OpenAI推出的HealthBench评估体系,提供了更接近实际、开放式的评测框架,强调多专业、多任务的评估标准。未来应借鉴这一思路,开发更符合医疗场景需求的、全面且专业的多模态评估基准,从而推动模型在真实临床任务中的实用性。
- 模型架构的扩展与多样化: 医学数据的形式多样,包括2D图像、视频、3D医学影像(如CT、MRI)、超高分辨率的组织切片(如病理切片WSI),以及分子、蛋白和基因组数据。现有的模型框架(如DeepMind的方案)可以通过优化数据流程适应部分新型模态,但可能会因信息损失而影响对细微差异的捕获。未来应致力于扩展Lingshu的能力,使其能原生支持WSI、3D影像和组学数据,实现不同模态间的无缝整合和理解,从而提升模型在多种复杂医学场景下的表现。
- 后训练技术的探索: 在模型训练后阶段引入更先进的后训练(post-training)技术尤为关键,比如针对医学场景开发定制化的强化学习(Reinforcement Learning)方法,以更好地调整模型输出,使其符合具体任务的目标和上下文需求。特别是与数学或编程逻辑推理不同,医学推理更依赖专业知识和临床经验,因此需要开发符合医学特点的奖励函数、奖励模型以及过程级的监督机制。
- 评估体系的完善: 目前,MedEvalKit主要基于通用领域的评估指标,尚需引入更为专业的医学评价指标。未来应考虑引入诸如一致性指数(c-index)、临床疗效评分(Clinical Efficacy Score)、决策曲线分析(Decision Curve Analysis)等医学专属评估方法,以更真实地反映模型在实际医疗中的表现。此外,结合医学专家的评估意见,增强模型的可信度和安全性也是未来的重要方向。
- Lingshu的发展路线: 这项研究是我们在医学领域的起步工作,未来将继续致力于通过丰富和多样化的医学数据和基准测试,优化训练策略,扩大模型规模,提升在报告生成、诊断、疾病分期等具体场景中的表现。同时,计划扩展多语言支持,并开发高效、面向任务的智能系统(即“智能代理”),以满足真实临床环境中多样化的需求。
总结来看,未来的研究重心在于:提升数据质量、完善评价体系、拓展模型的多模态能力,以及实现模型的临床落地应用。这些方向将共同推动医学多模态大模型向更高水平发展,真正实现技术在医疗实际中的价值。