医疗多模态大模型概述
概念与背景
医学多模态大模型是指利用多种不同的医学数据源和模型,通过深度学习和人工智能技术,构建一个综合性的大型模型,以实现更加准确和全面的医学数据分析和预测。这种模型的核心优势在于能够同时处理多种医学数据类型,如医学图像(CT、MRI、X 光)、病历文本、基因测序数据以及病理报告等,从而更全面地揭示医学数据的内在规律和关联。
传统的单一模态模型往往只能捕捉特定维度的信息,例如仅依靠图像可能忽略患者的病史背景,仅依靠文本则无法直观反映病灶形态。医学多模态大模型通过对不同数据源的特征提取和分析,实现跨模态的信息互补。在疾病诊断方面,它可以同时分析医学图像和病历数据,通过深度学习和特征提取技术,自动识别和分类疾病类型,显著提高诊断的准确性和效率。在治疗方案推荐方面,模型可以综合考虑患者的基因测序数据、病历信息、药物反应等多方面因素,为患者提供个性化的精准治疗方案。
随着人工智能技术的不断发展和应用,医学多模态大模型的应用范围非常广泛,涵盖医学图像分析、疾病预测与预防、个性化治疗、医疗教育等多个领域。其发展依赖于高质量的多模态数据集构建、高效的模型架构设计以及强大的硬件算力支持。
核心模型与技术架构
1. 基于 OpenFlamingo 的医学适配
在通用多模态大模型的基础上进行医学领域的适配是当前的主流研究方向之一。研究者提出了第一个适用于医学领域的多模态少样本学习器,该模型有望实现新颖的临床应用,例如基于检索到的多模态上下文的基本原理生成和调节。
训练数据构建: 为了支撑此类模型的训练,需要构建高质量的专用数据集。一种新的医学数据集被提出,在 OpenFlamingo-9B 模型上进行训练。训练数据集包括 MTB 和 PMC-OA。其中,MTB 是从 4721 本教科书构建的一个新的多模态数据集,涵盖了广泛的医学知识。这种大规模的知识注入使得模型能够理解复杂的医学术语和理论框架。
评估体系: 为了验证模型在临床推理上的能力,创建了一个新颖的 USMLE 式评估数据集,将医学 VQA(视觉问答)与复杂的跨专业医学推理相结合。Visual USMLE 是一个具有挑战性的多模式问题集,包含 618 个 USMLE 风格的问题。这些问题不仅通过图像进行了增强,还通过案例插图和可能的实验室测量表进行了增强。为了使可视化 USMLE 问题更具可操作性和实用性,将问题改写为开放式问题,而不是多项选择题。这使得基准测试变得更加困难和现实,因为模型必须完全自行提出鉴别诊断和潜在的程序,而不是从少数选择中选择最合理的答案。
USMLE(美国医师执照考试)风格主要强调临床医学知识、病人照护和医患关系的处理。它注重临床技能和实际操作能力,要求考生能够理解和应用医学知识,具备诊断、治疗和预防疾病的能力。此外,USMLE 还注重医学伦理和职业道德,要求考生具备高度的职业素养和道德标准。
评价指标创新: 不再是使用普通的 VQA 评价指标,研究提出了三个新的评价指标以更好地反映临床价值:
- 临床评估分数:由三名医生(包括一名委员会认证的放射科医生)使用专门开发的人类评估应用程序进行评分。
- BERT 相似度得分(BERT-sim):计算生成答案与正确答案之间的 F1 BERT 得分,衡量语义层面的重合度。
- 精确匹配:生成的答案中与正确答案完全匹配的部分。该指标相当嘈杂且保守,因为有用的答案可能在词汇上与正确答案不完全一致。
2. PMC-VQA 与指令微调
PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering 代表了另一种重要的技术路径,即通过视觉指令调整将预训练的视觉编码器与大语言模型对齐。
核心贡献:
- 将 MedVQA 问题重新定义为生成学习任务,并提出 MedVInT 模型。
- 引入可扩展的流程,构建了大规模的 MedVQA 数据集 PMC-VQA。该数据集的规模和多样性远远超过了现有数据集,涵盖了各种模式和疾病。
- 在 PMC-VQA 上对 MedVInT 进行预训练,并在 VQA-RAD 和 SLAKE 上对其进行微调,实现了最先进的性能并显著优于现有模型。
- 提出了一个新的测试集,并为 MedVQA 提出了更具挑战性的基准,以彻底评估 VQA 方法的性能。
数据集分析: PMC-VQA 数据集包含 227k 个图像 - 问题对。图像极其多样化,从放射学到信号。问题涵盖了一系列难度,从识别图像模式、视角和器官等简单问题到需要专业知识和判断的挑战性问题。此外,数据集中包含一些难题,需要能够从复合图中识别特定的目标子图。
问题类型分布广泛,包括'有什么区别…'、'成像类型是什么…'和'哪种类型图像显示…'。大多数问题的长度为 5 到 15 个单词。答案中的词语主要包括位置描述、图像模式和特定解剖区域。正确选项分布在不同类别间保持平衡,以确保模型不会偏向于特定的回答模式。


