智源与港中文联合提出首个多功能3D医学多模态大模型
智源研究院(BAAI)与香港中文大学联合提出的 M3D 系列工作,包括 M3D-Data、M3D-LaMed 和 M3D-Bench,从数据集、模型和测评全方面推动 3D 医学图像分析的发展。
1. M3D-Data:大规模 3D 医学图像数据集
M3D-Data 是目前最大的 3D 医学图像数据集,包含以下四个子数据集:
- M3D-Cap:120K 个 3D 图文对,用于图文检索和报告生成。
- M3D-VQA:510K 个问答对,涵盖封闭式和开放式视觉问答。
- M3D-Seg:150K 个 3D Mask,整合了几乎所有开源 3D 医学分割数据集,共计 25 个。
- M3D-RefSeg:3K 推理分割数据,用于指代分割任务。
该数据集专门针对各种 3D 医学任务量身定制,填补了 3D 医学多模态数据的空白。
2. M3D-LaMed:多功能 3D 医学多模态大模型
M3D-LaMed 是目前最多功能的 3D 医学多模态大模型,能够解决三类医学分析任务:
- 文本任务:疾病诊断、图像检索、视觉问答、报告生成等。
- 定位任务:目标检测、视觉定位、指代表达理解 (REC) 和指代表达生成 (REG)。
- 分割任务:语义分割、指代分割、推理分割等。
此外,基于 M3D-Cap 3D 图文对,团队还训练了一个图文对比学习的 M3D-CLIP 模型,提供了视觉预训练权重 3DViT。近期推出了更小更强的 M3D-LaMed-Phi-3-4B 模型,在保持性能的同时降低了资源消耗。
3. M3D-Bench:全面自动评估基准
M3D-Bench 能够全面和自动评估 8 种任务,涵盖文本、定位和分割三个方面,并提供人工校验后的测试数据。这为研究者提供了一个清晰的测评方案和代码框架,便于复现和比较。
实验结果与分析
图文检索
在 3D 图文检索中,模型旨在根据相似性从数据集中匹配图像和文本,涉及文本到图像检索 (TR) 和图像到文本检索 (IR)。由于缺乏合适的 3D 方法,将 2D 医学的代表模型 PMC-CLIP 应用于 3D 图文检索时,发现因缺乏空间信息,表现几乎无法与 3D 图文检索模型对比。M3D-LaMed 在此任务上展现了显著优势。
报告生成
在报告生成任务中,模型根据从 3D 医学图像中提取的信息生成文本报告。实验显示,M3D-LaMed 生成的报告在准确性和临床相关性上表现优异。
视觉问答 (VQA)
- 封闭式 VQA:需要为模型提供封闭的答案候选(如 A,B,C,D),要求模型选出正确答案。在医学领域,M3D-LaMed 的表现超过了通用的 GPT-4V。
- 开放式 VQA:模型生成开放式答案,不存在任何答案提示和候选。同样,在医学领域 M3D-LaMed 超过通用的 GPT-4V。需注意目前 GPT-4V 限制了医疗相关问题的回答,而 M3D-LaMed 对此进行了优化。
定位任务
定位在视觉语言任务中至关重要,尤其是涉及输入和输出框的任务。在输出框的任务(如 REC),旨在根据指代表达在图像中定位目标对象;在输入框的任务(如 REG),要求模型根据图像和位置框生成特定区域的描述。
分割任务
分割任务在 3D 医学图像分析中至关重要,因为它具有识别和定位功能。为了解决各种文本提示,分割分为语义分割和指代表达分割。对于语义分割,模型根据语义标签生成分割掩码;指代表达分割需要根据自然语言表达描述进行目标分割,需要模型具有一定的理解和推理能力。
分布外 (OOD) 问题案例研究
在 OOD 对话中测试了 M3D-LaMed 模型,这意味着所有问题都与训练数据不相关。研究发现 M3D-LaMed 具有很强的泛化能力,可以对 OOD 问题产生合理的答案,而不是胡言乱语。这表明模型具备较强的推理能力和泛化能力。
总结
M3D 系列研究促进了使用多模态大语言模型 (MLLM) 进行 3D 医学图像分析。具体来说,构建了包含 120K 3D 图像文本对和 662K 指令响应对的大规模 3D 多模态医学数据集 M3D-Data。提出了支持文本、定位和分割的通用模型 M3D-LaMed,并引入了综合基准 M3D-Bench。该方法为 MLLM 理解 3D 医学场景的视觉和语言奠定了坚实的基础。
所有代码、数据和模型均可公开获取,旨在帮助研究者共同推进 3D 医学图像分析的发展。


