跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
PythonAI算法

智源与港中文发布首个多功能3D医学多模态大模型M3D系列

综述由AI生成智源研究院与香港中文大学联合推出 M3D 系列成果,涵盖 M3D-Data 大规模 3D 医学多模态数据集、M3D-LaMed 多功能多模态大模型及 M3D-Bench 评估基准。该研究解决了 3D 医学图像分析中空间信息利用不足的问题,支持文本生成、视觉问答、定位及分割等任务。实验表明 M3D-LaMed 在医学领域表现优于通用模型,具备强泛化能力,相关资源已开源。

乱七八糟发布于 2025/2/7更新于 2026/5/3118 浏览
智源与港中文发布首个多功能3D医学多模态大模型M3D系列

智源与港中文联合提出首个多功能3D医学多模态大模型

智源研究院(BAAI)与香港中文大学联合提出的 M3D 系列工作,包括 M3D-Data、M3D-LaMed 和 M3D-Bench,从数据集、模型和测评全方面推动 3D 医学图像分析的发展。

1. M3D-Data:大规模 3D 医学图像数据集

M3D-Data 是目前最大的 3D 医学图像数据集,包含以下四个子数据集:

  • M3D-Cap:120K 个 3D 图文对,用于图文检索和报告生成。
  • M3D-VQA:510K 个问答对,涵盖封闭式和开放式视觉问答。
  • M3D-Seg:150K 个 3D Mask,整合了几乎所有开源 3D 医学分割数据集,共计 25 个。
  • M3D-RefSeg:3K 推理分割数据,用于指代分割任务。

该数据集专门针对各种 3D 医学任务量身定制,填补了 3D 医学多模态数据的空白。

2. M3D-LaMed:多功能 3D 医学多模态大模型

M3D-LaMed 是目前最多功能的 3D 医学多模态大模型,能够解决三类医学分析任务:

  1. 文本任务:疾病诊断、图像检索、视觉问答、报告生成等。
  2. 定位任务:目标检测、视觉定位、指代表达理解 (REC) 和指代表达生成 (REG)。
  3. 分割任务:语义分割、指代分割、推理分割等。

此外,基于 M3D-Cap 3D 图文对,团队还训练了一个图文对比学习的 M3D-CLIP 模型,提供了视觉预训练权重 3DViT。近期推出了更小更强的 M3D-LaMed-Phi-3-4B 模型,在保持性能的同时降低了资源消耗。

3. M3D-Bench:全面自动评估基准

M3D-Bench 能够全面和自动评估 8 种任务,涵盖文本、定位和分割三个方面,并提供人工校验后的测试数据。这为研究者提供了一个清晰的测评方案和代码框架,便于复现和比较。

实验结果与分析

图文检索

在 3D 图文检索中,模型旨在根据相似性从数据集中匹配图像和文本,涉及文本到图像检索 (TR) 和图像到文本检索 (IR)。由于缺乏合适的 3D 方法,将 2D 医学的代表模型 PMC-CLIP 应用于 3D 图文检索时,发现因缺乏空间信息,表现几乎无法与 3D 图文检索模型对比。M3D-LaMed 在此任务上展现了显著优势。

报告生成

在报告生成任务中,模型根据从 3D 医学图像中提取的信息生成文本报告。实验显示,M3D-LaMed 生成的报告在准确性和临床相关性上表现优异。

视觉问答 (VQA)

  • 封闭式 VQA:需要为模型提供封闭的答案候选(如 A,B,C,D),要求模型选出正确答案。在医学领域,M3D-LaMed 的表现超过了通用的 GPT-4V。
  • 开放式 VQA:模型生成开放式答案,不存在任何答案提示和候选。同样,在医学领域 M3D-LaMed 超过通用的 GPT-4V。需注意目前 GPT-4V 限制了医疗相关问题的回答,而 M3D-LaMed 对此进行了优化。

定位任务

定位在视觉语言任务中至关重要,尤其是涉及输入和输出框的任务。在输出框的任务(如 REC),旨在根据指代表达在图像中定位目标对象;在输入框的任务(如 REG),要求模型根据图像和位置框生成特定区域的描述。

分割任务

分割任务在 3D 医学图像分析中至关重要,因为它具有识别和定位功能。为了解决各种文本提示,分割分为语义分割和指代表达分割。对于语义分割,模型根据语义标签生成分割掩码;指代表达分割需要根据自然语言表达描述进行目标分割,需要模型具有一定的理解和推理能力。

分布外 (OOD) 问题案例研究

在 OOD 对话中测试了 M3D-LaMed 模型,这意味着所有问题都与训练数据不相关。研究发现 M3D-LaMed 具有很强的泛化能力,可以对 OOD 问题产生合理的答案,而不是胡言乱语。这表明模型具备较强的推理能力和泛化能力。

总结

M3D 系列研究促进了使用多模态大语言模型 (MLLM) 进行 3D 医学图像分析。具体来说,构建了包含 120K 3D 图像文本对和 662K 指令响应对的大规模 3D 多模态医学数据集 M3D-Data。提出了支持文本、定位和分割的通用模型 M3D-LaMed,并引入了综合基准 M3D-Bench。该方法为 MLLM 理解 3D 医学场景的视觉和语言奠定了坚实的基础。

所有代码、数据和模型均可公开获取,旨在帮助研究者共同推进 3D 医学图像分析的发展。

资源链接

  • 论文:https://arxiv.org/abs/2404.00578
  • 代码:https://github.com/BAAI-DCAI/M3D
  • 模型:https://huggingface.co/GoodBaiBai88/M3D-LaMed-Phi-3-4B
  • 数据集:https://github.com/BAAI-DCAI/M3D?tab=readme-ov-file#data
  • 线上 Demo:https://e7e9a4f07f93722d27.gradio.live/

目录

  1. 智源与港中文联合提出首个多功能3D医学多模态大模型
  2. 1. M3D-Data:大规模 3D 医学图像数据集
  3. 2. M3D-LaMed:多功能 3D 医学多模态大模型
  4. 3. M3D-Bench:全面自动评估基准
  5. 实验结果与分析
  6. 图文检索
  7. 报告生成
  8. 视觉问答 (VQA)
  9. 定位任务
  10. 分割任务
  11. 分布外 (OOD) 问题案例研究
  12. 总结
  13. 资源链接
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • 闲鱼 x-sign 生成算法逆向分析
  • CTF Web 命令执行实战:从基础注入到高级绕过技巧
  • 基于 OpenClaw 与飞书构建自动化服务器运维机器人
  • Java JDK 安装与环境配置教程(Windows + macOS 通用)
  • Rokid 灵珠平台搭建旅游 AR 智能体指南
  • Linux 下 libwebkit2gtk-4.1-0 安装与配置指南
  • 使用 CLIProxyAPI 和 New API 搭建统一 AI 中转站实战
  • Qwen-Image-Edit-2511-Multiple-Angles LoRA 多角度 AI 图像生成指南
  • node-llama-cpp安装与配置:Windows、Linux和Mac全平台教程
  • 小米智能家居 Miloco 分离式部署实战
  • TrendRadar 本地部署指南:Docker 配置、AI 模型接入与 MCP 服务对接
  • VSCode 集成 GitHub Copilot 插件使用指南
  • Python 3.12 下载与安装配置指南
  • 使用 Ollama 本地部署 LLaMA 大模型
  • Windows 下 MySQL 安装与使用教程
  • 软体机器人动作捕捉系统:6 大主流方案深度测评与选型指南
  • Claude Code 2.0.74-2.0.76 更新:LSP 集成赋予 AI IDE 级代码理解能力
  • Python 标准库与第三方库实战:日期处理与 Excel 操作
  • MAC M1 本地部署 Llama.cpp 与通义千问 Qwen 1.5-7B 实践指南
  • C++ 基础概念详解:命名空间、引用与函数重载

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • curl 转代码

    解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online