谷歌发布医学大模型 Med-Gemini，多项基准测试表现优异

谷歌发布医学大模型 Med-Gemini，基于原有 Gemini 架构构建，专为医学领域设计。该模型在 14 项医疗基准测试中 10 项达到或超越行业标准，医疗诊断测试准确率达 91.1%，显著优于 GPT-4 系列。Med-Gemini 具备高级推理、多模态理解（文本、图像、视频、生物信号）及长文本处理能力，能有效处理电子健康记录、医学影像及手术视频。应用场景涵盖临床诊断辅助、医学影像分析、EHR 处理、手术教学及科学文献综述。尽管面临数据隐私和幻觉风险等挑战，Med-Gemini 在提升医疗服务效率和质量方面展现出巨大潜力，标志着医疗 AI 进入新阶段。

涅槃凤凰发布于 2025/2/6更新于 2026/7/2139 浏览

引言

随着人工智能技术在医疗领域的深入应用，大型语言模型（LLM）正逐渐成为辅助诊断、医学研究和患者教育的重要工具。近日，Google 对外公布了一篇论文，详细介绍了其最新研发的医学 AI 模型——Med-Gemini。该模型基于 Google 原有的 Gemini 架构构建，专为医学领域设计，旨在解决各种医学场景下的复杂问题，为医护人员、患者提供更好的服务。

研究人员利用 14 项医疗基准对 Med-Gemini 进行了全面评估。结果显示，Med-Gemini 在其中 10 项中达到或远超行业最高标准，并显著优于之前最强的 GPT-4 系列模型。特别是在医疗诊断测试中，其准确率高达 91.1%。此外，在医疗文本总结和转诊信息生成等任务上的表现也极为优异，显示了其在多模态医疗对话、医学研究和教育方面的巨大潜力，证明了其在现实世界中的实用性。

本文将详细梳理 Med-Gemini 的关键特点、核心能力及其应用场景，帮助读者深入理解这一技术进展。

Med-Gemini 的关键特点及能力

1. 高级推理能力

Med-Gemini 具备强大的自我训练和实时网络搜索集成能力，能够进行复杂的诊断和推理，为用户提供有效的医疗信息和建议。这种能力使其在处理需要深度逻辑分析的医学问题时表现出色。

在 MedQA (USMLE) 基准测试中，Med-Gemini 达到了 91.1% 的最高准确率。这一成绩远超市面上现有的各种医疗大模型，也优于此前最强的 GPT-4 模型。这表明 Med-Gemini 不仅掌握了大量的医学知识，还具备了将知识应用于实际临床推理的能力，能够有效减少误诊风险。

2. 多模态理解能力

Med-Gemini 通过微调和定制编码器的使用，能够更好地理解和处理多种医学数据模态，包括文本、图像、视频和生物信号。这种多模态融合能力让 Med-Gemini 能够更全面地解读各种医学数据。

例如，在处理心电图（ECG）等生物信号数据时，Med-Gemini 结合文本描述与波形特征进行分析，提高了诊断的准确性。在包括 NEJM-image 在内的七个多模态基准测试中，Med-Gemini 对比 GPT-4 平均提高了 44.5% 的性能。这意味着医生可以利用该模型整合影像报告、病理切片和患者病史，获得更综合的诊断参考。

3. 长文本处理能力

医疗场景中常涉及海量的历史数据，如电子健康记录（EHR）、医学教学视频、长篇医学文献等。Med-Gemini 能够处理和理解超长的医疗文本，这对于提高诊断准确性和效率至关重要。

研究人员指出，Med-Gemini 通过 EHR 检索方面的改进，有效地从大量患者数据中提取并分析关键信息。它能够识别患者过往病史中的潜在关联，有可能显著降低临床医生的认知负担，增强其决策能力。此外，Med-Gemini 在医疗文本摘要和写转诊信息方面也表现优异。根据临床医生的评估显示，Med-Gemini 生成的医疗文本摘要在准确性、信息覆盖度和表述简洁性等关键方面均十分出色。这对于减轻医护人员的文书负担以腾出更多时间专注于患者沟通和临床诊疗具有非常重要的意义。

Med-Gemini 的应用场景

1. 临床推理与诊断辅助

Med-Gemini 通过自我训练和网络搜索集成，增强了处理复杂临床推理任务的能力，能够更好地进行诊断和推理。在皮肤科场景下，面对患者用户关于皮肤肿块瘙痒的咨询，Med-Gemini 可以一步一步引导用户描述问题、提供相关图像信息后，分析诊断出病因情况，为患者提供治疗方法以及进一步的指导建议。这种交互方式模拟了专家会诊的过程，有助于基层医疗机构提升诊疗水平。

2. 医学影像分析

Med-Gemini 在医学影像（如 X 光、CT 扫描、MRI 等）处理方面表现出色，支持医学诊断决策。在放射科场景中，Med-Gemini 能够与医生用户进行有效的交流，根据其医疗影像分析和医疗对话方面的能力对胸部 X 光片进行解读，并生成一份易于理解、使用非技术型语言撰写而成的报告供患者阅读分析。这不仅提高了工作效率，也为医生腾出了更多的时间处理其他重要事情。

3. 电子健康记录（EHR）处理

模型利用长文本处理能力，有效分析和解读大量的 EHR，帮助临床医生提取有用的信息，便于诊治。对于改进病历管理、支持临床决策以及促进医学研究分析都具有重要价值。它还可以解析长篇电子病历并进行对话，提供更自然、高效的交互方式，辅助临床医生和患者沟通，提高患者与医生之间沟通的效率，达到更好的治疗效果。

4. 手术视频理解

Med-Gemini 能够理解复杂的手术过程，并根据预定义的标准进行评估。文章中展现了 Med-Gemini 分析一个腹腔镜胆囊切除术（一种微创手术）的手术镜头案例。模型评估了定义 CVS 实现的三个标准是否得到满足，并为每个标准分别提供了详细的解释：清晰显示连接到胆囊的两个管状结构、仔细解剖的肝囊三角，仅显示两个囊性结构和囊板、胆囊下三分之一从囊板上解剖下来。

Med-Gemini 还可以与学习该手术过程的学生进行真实对话，关于手术步骤、手术技术、使用工具以及手术过程中可能出现的潜在并发症都能详尽解答。此外，Med-Gemini 还能对手术视频中的手术动作进行分割和标注。该示例展示了 Med-Gemini 将手术视频分割成若干片段，并根据每个片段中正在进行的手术动作（例如切割、结扎）为其分配标签。如果没有正在进行的动作，则将其分类为背景。Med-Gemini 的标注结果与真实标注非常接近，表明其能够准确地识别和分割手术视频中的动作。Med-Gemini 对于手术视频的理解能力，意味着对于手术质量控制、术后分析和手术教学等都具有潜在的应用价值。

谷歌发布医学大模型 Med-Gemini，多项基准测试表现优异

引言