智源与港中文发布首个多功能3D医学多模态大模型M3D系列
智源研究院与香港中文大学联合推出 M3D 系列成果,涵盖 M3D-Data 大规模 3D 医学多模态数据集、M3D-LaMed 多功能多模态大模型及 M3D-Bench 评估基准。该研究解决了 3D 医学图像分析中空间信息利用不足的问题,支持文本生成、视觉问答、定位及分割等任务。实验表明 M3D-LaMed 在医学领域表现优于通用模型,具备强泛化能力,相关资源已开源。

智源研究院与香港中文大学联合推出 M3D 系列成果,涵盖 M3D-Data 大规模 3D 医学多模态数据集、M3D-LaMed 多功能多模态大模型及 M3D-Bench 评估基准。该研究解决了 3D 医学图像分析中空间信息利用不足的问题,支持文本生成、视觉问答、定位及分割等任务。实验表明 M3D-LaMed 在医学领域表现优于通用模型,具备强泛化能力,相关资源已开源。

智源研究院(BAAI)与香港中文大学联合提出的 M3D 系列工作,包括 M3D-Data、M3D-LaMed 和 M3D-Bench,从数据集、模型和测评全方面推动 3D 医学图像分析的发展。
M3D-Data 是目前最大的 3D 医学图像数据集,包含以下四个子数据集:
该数据集专门针对各种 3D 医学任务量身定制,填补了 3D 医学多模态数据的空白。
M3D-LaMed 是目前最多功能的 3D 医学多模态大模型,能够解决三类医学分析任务:
此外,基于 M3D-Cap 3D 图文对,团队还训练了一个图文对比学习的 M3D-CLIP 模型,提供了视觉预训练权重 3DViT。近期推出了更小更强的 M3D-LaMed-Phi-3-4B 模型,在保持性能的同时降低了资源消耗。
M3D-Bench 能够全面和自动评估 8 种任务,涵盖文本、定位和分割三个方面,并提供人工校验后的测试数据。这为研究者提供了一个清晰的测评方案和代码框架,便于复现和比较。
在 3D 图文检索中,模型旨在根据相似性从数据集中匹配图像和文本,涉及文本到图像检索 (TR) 和图像到文本检索 (IR)。由于缺乏合适的 3D 方法,将 2D 医学的代表模型 PMC-CLIP 应用于 3D 图文检索时,发现因缺乏空间信息,表现几乎无法与 3D 图文检索模型对比。M3D-LaMed 在此任务上展现了显著优势。
在报告生成任务中,模型根据从 3D 医学图像中提取的信息生成文本报告。实验显示,M3D-LaMed 生成的报告在准确性和临床相关性上表现优异。
定位在视觉语言任务中至关重要,尤其是涉及输入和输出框的任务。在输出框的任务(如 REC),旨在根据指代表达在图像中定位目标对象;在输入框的任务(如 REG),要求模型根据图像和位置框生成特定区域的描述。
分割任务在 3D 医学图像分析中至关重要,因为它具有识别和定位功能。为了解决各种文本提示,分割分为语义分割和指代表达分割。对于语义分割,模型根据语义标签生成分割掩码;指代表达分割需要根据自然语言表达描述进行目标分割,需要模型具有一定的理解和推理能力。
在 OOD 对话中测试了 M3D-LaMed 模型,这意味着所有问题都与训练数据不相关。研究发现 M3D-LaMed 具有很强的泛化能力,可以对 OOD 问题产生合理的答案,而不是胡言乱语。这表明模型具备较强的推理能力和泛化能力。
M3D 系列研究促进了使用多模态大语言模型 (MLLM) 进行 3D 医学图像分析。具体来说,构建了包含 120K 3D 图像文本对和 662K 指令响应对的大规模 3D 多模态医学数据集 M3D-Data。提出了支持文本、定位和分割的通用模型 M3D-LaMed,并引入了综合基准 M3D-Bench。该方法为 MLLM 理解 3D 医学场景的视觉和语言奠定了坚实的基础。
所有代码、数据和模型均可公开获取,旨在帮助研究者共同推进 3D 医学图像分析的发展。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online