智源与港中文发布首个多功能3D医学多模态大模型M3D系列

智源研究院与香港中文大学联合推出 M3D 系列成果，涵盖 M3D-Data 大规模 3D 医学多模态数据集、M3D-LaMed 多功能多模态大模型及 M3D-Bench 评估基准。该研究解决了 3D 医学图像分析中空间信息利用不足的问题，支持文本生成、视觉问答、定位及分割等任务。实验表明 M3D-LaMed 在医学领域表现优于通用模型，具备强泛化能力，相关资源已开源。

乱七八糟发布于 2025/2/7更新于 2026/7/2035 浏览

智源与港中文联合提出首个多功能3D医学多模态大模型

智源研究院（BAAI）与香港中文大学联合提出的 M3D 系列工作，包括 M3D-Data、M3D-LaMed 和 M3D-Bench，从数据集、模型和测评全方面推动 3D 医学图像分析的发展。

1. M3D-Data：大规模 3D 医学图像数据集

M3D-Data 是目前最大的 3D 医学图像数据集，包含以下四个子数据集：

M3D-Cap：120K 个 3D 图文对，用于图文检索和报告生成。
M3D-VQA：510K 个问答对，涵盖封闭式和开放式视觉问答。
M3D-Seg：150K 个 3D Mask，整合了几乎所有开源 3D 医学分割数据集，共计 25 个。
M3D-RefSeg：3K 推理分割数据，用于指代分割任务。

该数据集专门针对各种 3D 医学任务量身定制，填补了 3D 医学多模态数据的空白。

2. M3D-LaMed：多功能 3D 医学多模态大模型

M3D-LaMed 是目前最多功能的 3D 医学多模态大模型，能够解决三类医学分析任务：

文本任务：疾病诊断、图像检索、视觉问答、报告生成等。
定位任务：目标检测、视觉定位、指代表达理解 (REC) 和指代表达生成 (REG)。
分割任务：语义分割、指代分割、推理分割等。

此外，基于 M3D-Cap 3D 图文对，团队还训练了一个图文对比学习的 M3D-CLIP 模型，提供了视觉预训练权重 3DViT。近期推出了更小更强的 M3D-LaMed-Phi-3-4B 模型，在保持性能的同时降低了资源消耗。

3. M3D-Bench：全面自动评估基准

M3D-Bench 能够全面和自动评估 8 种任务，涵盖文本、定位和分割三个方面，并提供人工校验后的测试数据。这为研究者提供了一个清晰的测评方案和代码框架，便于复现和比较。

实验结果与分析

图文检索

在 3D 图文检索中，模型旨在根据相似性从数据集中匹配图像和文本，涉及文本到图像检索 (TR) 和图像到文本检索 (IR)。由于缺乏合适的 3D 方法，将 2D 医学的代表模型 PMC-CLIP 应用于 3D 图文检索时，发现因缺乏空间信息，表现几乎无法与 3D 图文检索模型对比。M3D-LaMed 在此任务上展现了显著优势。

报告生成

在报告生成任务中，模型根据从 3D 医学图像中提取的信息生成文本报告。实验显示，M3D-LaMed 生成的报告在准确性和临床相关性上表现优异。

视觉问答 (VQA)

封闭式 VQA：需要为模型提供封闭的答案候选（如 A,B,C,D），要求模型选出正确答案。在医学领域，M3D-LaMed 的表现超过了通用的 GPT-4V。
开放式 VQA：模型生成开放式答案，不存在任何答案提示和候选。同样，在医学领域 M3D-LaMed 超过通用的 GPT-4V。需注意目前 GPT-4V 限制了医疗相关问题的回答，而 M3D-LaMed 对此进行了优化。

定位任务

定位在视觉语言任务中至关重要，尤其是涉及输入和输出框的任务。在输出框的任务（如 REC），旨在根据指代表达在图像中定位目标对象；在输入框的任务（如 REG），要求模型根据图像和位置框生成特定区域的描述。

分割任务

分割任务在 3D 医学图像分析中至关重要，因为它具有识别和定位功能。为了解决各种文本提示，分割分为语义分割和指代表达分割。对于语义分割，模型根据语义标签生成分割掩码；指代表达分割需要根据自然语言表达描述进行目标分割，需要模型具有一定的理解和推理能力。

分布外 (OOD) 问题案例研究

在 OOD 对话中测试了 M3D-LaMed 模型，这意味着所有问题都与训练数据不相关。研究发现 M3D-LaMed 具有很强的泛化能力，可以对 OOD 问题产生合理的答案，而不是胡言乱语。这表明模型具备较强的推理能力和泛化能力。

总结

M3D 系列研究促进了使用多模态大语言模型 (MLLM) 进行 3D 医学图像分析。具体来说，构建了包含 120K 3D 图像文本对和 662K 指令响应对的大规模 3D 多模态医学数据集 M3D-Data。提出了支持文本、定位和分割的通用模型 M3D-LaMed，并引入了综合基准 M3D-Bench。该方法为 MLLM 理解 3D 医学场景的视觉和语言奠定了坚实的基础。

智源与港中文发布首个多功能3D医学多模态大模型M3D系列

智源与港中文联合提出首个多功能3D医学多模态大模型

1. M3D-Data：大规模 3D 医学图像数据集

2. M3D-LaMed：多功能 3D 医学多模态大模型

3. M3D-Bench：全面自动评估基准

实验结果与分析

图文检索

报告生成

视觉问答 (VQA)

定位任务

分割任务

分布外 (OOD) 问题案例研究

总结

更多推荐文章

相关免费在线工具

资源链接

更多推荐文章

相关免费在线工具

智源与港中文发布首个多功能3D医学多模态大模型M3D系列

智源与港中文联合提出首个多功能3D医学多模态大模型

1. M3D-Data：大规模 3D 医学图像数据集

2. M3D-LaMed：多功能 3D 医学多模态大模型

3. M3D-Bench：全面自动评估基准

实验结果与分析

图文检索

报告生成

视觉问答 (VQA)

定位任务

分割任务

分布外 (OOD) 问题案例研究

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

资源链接

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具