跳到主要内容

极客日志面向AI+效率的开发者社区

首页博客 GitHub 精选镜像 AI 生图工具 UI配色美学隐私政策关于联系

搜索内容 / 工具 / 仓库 / 镜像...⌘K 搜索

Google 发布 Med-Gemini 医学大模型：多模态与长文本处理突破 | 极客日志

PythonAI算法

Google 发布 Med-Gemini 医学大模型：多模态与长文本处理突破

Google 发布基于 Gemini 架构的 Med-Gemini 医学大模型家族，在临床推理、多模态理解及长文本处理方面取得突破。该模型在 14 个医疗基准测试中 10 个达到最佳性能，MedQA 准确率达 91.1%，超越 GPT-4。通过自我训练、网络搜索集成及定制编码器，Med-Gemini 能处理电子健康记录、手术视频及医学教学视频，辅助皮肤科诊断、放射科分析及科研文献总结，展现显著临床应用潜力。

监控大屏发布于 2025/2/7更新于 2026/7/2145 浏览

Google 发布 Med-Gemini 医学大模型：多模态与长文本处理突破

Google 发布 Med-Gemini 医学大模型：多模态与长文本处理突破

人工智能能否在复杂的医学领域大放异彩？谷歌最新发布的 Med-Gemini 医学模型家族，以其在临床推理、多模态理解和长文本处理方面的突破性进展，给出了肯定的答案。Med-Gemini 是基于 Google 强大的 Gemini 模型构建的多模态医学模型家族，融合了高级推理、多模态理解和长文本处理能力。

模型概述

Med-Gemini 旨在提升医疗场景下的 AI 辅助能力，主要特性包括：

提升临床推理能力：通过自我训练和网络搜索集成，Med-Gemini 能够更准确地进行诊断和推理，并在 MedQA (USMLE) 等基准测试中取得了当前最佳性能。
改进多模态性能：通过微调和定制编码器，Med-Gemini 可以更好地理解和处理多种医学数据模态，如文本、图像、视频和生物信号。
强大的长文本处理能力：Med-Gemini 能够有效地分析和理解长篇医学信息，例如电子健康记录 (EHR) 和医学教学视频，并在相关基准测试中取得了当前最佳性能。

Med-Gemini 性能概览

研究人员用了 14 个医疗基准测试 Med-Gemini 的能力。结果发现，它在 10 个基准上都取得了最佳表现，远超之前最强的 GPT-4 模型。

Med-Gemini 基准测试结果

在流行的医学问答测试 MedQA 上，Med-Gemini 达到了 91.1% 的准确率，比之前最好的模型高出 4.6%。

MedQA 测试成绩

在医学文本摘要、转诊信生成和医学简化任务中，Med-Gemini 的表现优于人类专家。此外，Med-Gemini 还能够进行多模态医学对话，为临床医生和患者提供更自然、高效的交互方式。

多模态医学对话示例

Med-Gemini 构建方法

Med-Gemini 模型家族的构建基于 Google 的 Gemini 模型，并针对医学领域进行了专门的优化和改进。主要方法包括：

1. 高级推理

自我训练与搜索集成

Med-Gemini 通过在 MedQA 数据集上进行自我训练，学习如何有效地利用网络搜索进行临床推理。模型会根据自身的不确定性，自动生成搜索查询并整合搜索结果，以提高答案的准确性和可靠性。

高级推理机制

2. 多模态理解

多模态微调

Med-Gemini 在多个多模态医学数据集上进行了微调，以提升其对医学图像、文本和其他模态数据的理解能力。

定制编码器

Med-Gemini 通过使用专门的编码器层，展示了 Gemini 模型适应新医学数据模态（例如心电图）的能力。

3. 长文本处理

指令提示与推理链

Med-Gemini 利用其长文本处理能力，通过指令提示和推理链，有效地解析长篇医学信息，例如电子健康记录和医学教学视频。

在'大海捞针'任务中，模型能够从长篇 EHR 记录中准确地检索和验证罕见或细微的医疗状况、症状和程序。

在医学视频理解任务中，模型能够定位与查询相关的视频片段，并识别手术视频中的'安全关键视图'。

真实世界临床案例

以下通过几个真实世界的临床例子来展示医学大模型的进化程度。

1. 皮肤科场景下的多模态诊断对话

Med-Gemini-M 1.5 在皮肤科场景下进行假设多模态诊断对话的示例，并提供了皮肤科医生对对话内容的定性反馈。

(a) 对话示例

用户与 Med-Gemini-M 1.5 进行交互，模拟患者描述症状并提供病变图像。

Med-Gemini-M 1.5 表现出以下能力：

多模态信息获取：当用户没有提供图片时，模型会主动要求提供图片。
开放式诊断：模型能够根据患者的描述和图片，有效地得出正确的诊断结果（prurigo nodularis）。
可解释性：模型能够解释其推理过程，包括整合相关的视觉特征和其他收集到的患者症状。
治疗方案建议：模型能够回答有关治疗方案的问题，同时适当地将最终决定权交给专家。

(b) 皮肤科医生的反馈

皮肤科医生对对话内容进行了定性评估，并指出了积极和消极的方面。
积极方面：模型能够根据有限的信息准确诊断出相对罕见的 prurigo nodularis；模型提供了完整和全面的治疗方案建议。
消极方面：模型可以要求提供更多不同部位的病变照片以加强诊断；模型可以提供鉴别诊断，并解释为什么根据病史更倾向于 prurigo nodularis 的诊断；模型可以强调 prurigo nodularis 虽然无法治愈，但可以改善和控制症状的可能性。

皮肤科诊断示例

2. 放射科场景下的多模态诊断辅助

Med-Gemini-M 1.5 在放射科场景下进行假设多模态诊断辅助对话的示例，并提供了放射科医生对对话质量的反馈。

(a) 对话示例

Med-Gemini-M 1.5 分析一张胸部 X 光片 (CXR)，并与一位初级保健医生进行模拟对话。

Med-Gemini-M 1.5 表现出以下能力：

识别影像学异常：模型识别出脊柱轻度退行性改变。
解释推理过程：模型能够解释其得出该发现的推理过程。
医学知识：模型展示了关于退行性椎间盘疾病的医学知识。
相关性和因果关系：模型能够区分患者背痛病史的相关性和因果关系。
通俗易懂的解释：模型能够用通俗易懂的语言解释其发现，有助于促进患者对临床信息的理解和沟通。

(b) 放射科医生的反馈

放射科医生对对话的质量给予了积极的评价，认为该对话展示了模型在现实世界中的应用潜力。
积极方面：对话场景真实，反映了临床实践中的实际需求；模型能够生成放射学报告，并展示了其医学知识和推理能力；模型能够区分相关性和因果关系，体现了其对医学知识的深入理解。

放射科诊断示例

3. 长篇 EHR 理解任务

Med-Gemini-M 1.5 在长篇 EHR 理解任务中的长文本处理能力，具体任务是从长篇 EHR 记录中检索'大海捞针'式的医疗状况。

Med-Gemini-M 1.5 执行两步过程来确定患者是否具有特定病史：

(a) 第一步：检索

模型识别 EHR 记录中所有提及'体温过低'的文本片段，并提供直接引文（例如'+出汗。口腔温度 93.7。转入重症监护室 (MICU)'）和每个提及的笔记 ID。

(b) 第二步：判定存在

模型评估每个检索到的提及的相关性，将其分类为'明确确认'、'强烈指示'或'相关提及'。
基于此分析，模型得出结论，患者确实有体温过低的病史，并提供了明确的推理过程。

这个例子展示了 Med-Gemini-M 1.5 处理长篇医学文本并从中提取关键信息的能力，这对于临床医生来说非常有价值，可以帮助他们更有效地了解患者的病史并做出更明智的决策。

EHR 理解示例

4. 手术视频理解

Med-Gemini-M 1.5 如何分析手术视频，并评估其中是否实现了'安全关键视图 (CVS)'。

具体步骤：

Med-Gemini-M 1.5 分析来自 Cholec80 数据集的视频片段，该片段包含腹腔镜胆囊切除术（一种微创手术）的镜头。

模型评估了定义 CVS 实现的三个标准是否得到满足，并为每个标准分别提供了详细的解释：

标准 1：清晰显示连接到胆囊的两个管状结构。
标准 2：仔细解剖的肝囊三角，仅显示两个囊性结构和囊板。
标准 3：胆囊下三分之一从囊板上解剖下来。

说明 Med-Gemini-M 1.5 能够理解复杂的手术过程，并根据预定义的标准进行评估。这对于手术质量控制、术后分析和手术教学都具有潜在的应用价值。

手术视频理解

5. 医学教学视频理解

Med-Gemini-M 1.5 如何分析医学教学视频并回答特定问题。

具体示例：

Med-Gemini-M 1.5 分析来自 MedVidQA 数据集的视频，该视频包含一位物理治疗师讲解和演示如何缓解小腿拉伤的练习。
模型识别出相关的视频片段 (02:22-02:58)，其中物理治疗师针对该状况进行了解释和演示。
MedVidQA 数据集的真实时间跨度标注为 02:22-03:00，与模型识别结果非常接近。

说明 Med-Gemini-M 1.5 能够理解医学教学视频的内容，并根据用户的问题定位相关的视频片段。这对于医学教育、患者教育和临床实践都具有潜在的应用价值。

医学教学视频

6. 手术动作视频分割和标注

Med-Gemini-M 1.5 如何分析手术视频，并对视频中的手术动作进行分割和标注。

具体步骤：

Med-Gemini-M 1.5 分析来自 Surgical Action Recognition (AVOS) 数据集的视频。
模型将视频分割成若干片段，并根据每个片段中正在进行的手术动作（例如切割、结扎、缝合）为其分配标签。如果没有正在进行的动作，则将其分类为背景。
该例子的 AVOS 真实标注为：00:00-00:11: 背景，00:12-03:05: 切割，03:05-03:15: 背景，03:15-04:02: 缝合。
模型的标注结果与真实标注非常接近，表明其能够准确地识别和分割手术视频中的动作。

说明 Med-Gemini-M 1.5 能够理解复杂的手术过程，并对其进行细粒度的分析。这对于手术技能评估、手术机器人控制和手术教学等领域都具有潜在的应用价值。

手术动作标注

7. EHR 对话中的长文本处理

Med-Gemini-M 1.5 如何解析长篇病历并进行对话，模拟与临床医生或患者进行交流。

具体示例：

Med-Gemini-M 1.5 解析一份长篇病历，并提供患者当前和既往病史的全面摘要。

对话侧重于患者的严重肺炎病史，模型能够回答用户提出的相关问题，例如：

肺炎的症状和诊断
胸部 X 光检查结果
治疗过程和并发症
长期影响

Figure 13 说明 Med-Gemini-M 1.5 能够理解复杂的医疗数据，并将其转化为易于理解的信息。这对于临床医生和患者都具有潜在的应用价值：

减少认知负担：帮助临床医生快速了解患者的病史，并做出更明智的决策。
提高信息可访问性：帮助患者更好地理解自己的病情，并参与到治疗过程中。

EHR 对话示例

8. 科学信息综合

Med-Gemini-M 1.5 如何处理大量的科学文献，并从中提取和总结关键信息。

具体示例：

Med-Gemini-M 1.5 被输入了 12 篇关于 FTO 基因位点（与 BMI 和肥胖相关的变异区域）与肥胖症之间机制联系的研究论文的全文内容（PDF 格式）。
模型被要求提供一个简洁的描述，说明 FTO 位点如何导致肥胖，并列出具体的支持性实验结果。
模型生成了一个简洁、信息丰富且准确的描述，解释了 FTO 位点在肥胖生物学中的作用，并以清晰易懂的方式呈现。

说明 Med-Gemini-M 1.5 能够理解复杂的科学文献，并从中提取和综合关键信息。这对于生物医学研究人员、临床医生和其他需要获取和理解最新科学进展的人员都具有潜在的应用价值。

科学文献综合

总结

Med-Gemini 代表了医学大模型的重要里程碑。通过结合先进的推理技术、多模态理解能力和长文本处理优势，它不仅在基准测试中超越了现有最强模型，还在实际临床场景中展现了巨大的应用潜力。从皮肤科的初步诊断到放射科的影像分析，再到手术视频的实时评估和科研文献的综合，Med-Gemini 有望成为医疗行业不可或缺的智能助手，推动精准医疗的发展。

目录

Google 发布 Med-Gemini 医学大模型：多模态与长文本处理突破
模型概述
Med-Gemini 构建方法
1. 高级推理
2. 多模态理解
3. 长文本处理
真实世界临床案例
1. 皮肤科场景下的多模态诊断对话
2. 放射科场景下的多模态诊断辅助
3. 长篇 EHR 理解任务
4. 手术视频理解
5. 医学教学视频理解
6. 手术动作视频分割和标注
7. EHR 对话中的长文本处理
8. 科学信息综合
总结

免费图片AI生成工具免费生成了解详情

Magick API 一键接入全球大模型注册送1000万token查看
免费图片视频在线生成30秒，将你的创意变成现实开始设计
X/Twitter免费视频下载器免登陆无限额度免费视频解析下载了解详情
100+免费在线小游戏爽一把

极客日志微信公众号二维码

微信扫一扫，关注极客日志

微信公众号「极客日志V2」，在微信中扫描左侧二维码关注。展示文案：极客日志V2 zeeklog

更多推荐文章

VS Code 前端开发必备插件推荐及配置教程
HarmonyOS 6.0 Camera Kit 微距状态监听能力详解
千笔 AI 学术写作辅助工具核心功能解析
期刊论文智能写作：从选题到见刊的全流程加速方案
Elasticsearch 进阶实战：JavaRestClient 操作索引与文档及海量数据批处理指南
AI 大模型通信机制：流式传输与数据封装逻辑解析
Moon VR Video Player 中文版：支持 8K/12K 多音轨及外挂字幕
AI Agent 安全警示与工具演进：从 Meta 事故到 Claude Code 及 Python 3.15 JIT 进展
C++11 可变参数模板、新类功能及 STL 变化与包装器
Streamlit 实战指南：用 Python 快速构建数据 Web 应用
Linux 系统部署 OpenClaw 并接入 QQ 机器人指南
如何有效降低论文 AI 检测率：八项实战优化策略
Python 路径拼接实战：os.path.join() 函数用法详解
XR 技术分享：三维实时渲染与 VR 全景视频的共生
Python 函数应用实战与最佳实践
Whisper v0.2 语音转文字工具安装与使用教程
Unity VR 眼镜端高分辨率全景视频播放性能优化
基于 Figma、Claude 与 Weavy AI 的设计工作流实战
PostgreSQL 动态分区裁剪技术：查询性能优化实战
2026 年 2 月 AIGC 行业模型发布与前沿资讯汇总

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online