Google 发布 Med-Gemini 医学大模型:多模态与长文本处理突破
人工智能能否在复杂的医学领域大放异彩?谷歌最新发布的 Med-Gemini 医学模型家族,以其在临床推理、多模态理解和长文本处理方面的突破性进展,给出了肯定的答案。Med-Gemini 是基于 Google 强大的 Gemini 模型构建的多模态医学模型家族,融合了高级推理、多模态理解和长文本处理能力。
模型概述
Med-Gemini 旨在提升医疗场景下的 AI 辅助能力,主要特性包括:
- 提升临床推理能力:通过自我训练和网络搜索集成,Med-Gemini 能够更准确地进行诊断和推理,并在 MedQA (USMLE) 等基准测试中取得了当前最佳性能。
- 改进多模态性能:通过微调和定制编码器,Med-Gemini 可以更好地理解和处理多种医学数据模态,如文本、图像、视频和生物信号。
- 强大的长文本处理能力:Med-Gemini 能够有效地分析和理解长篇医学信息,例如电子健康记录 (EHR) 和医学教学视频,并在相关基准测试中取得了当前最佳性能。

研究人员用了 14 个医疗基准测试 Med-Gemini 的能力。结果发现,它在 10 个基准上都取得了最佳表现,远超之前最强的 GPT-4 模型。

在流行的医学问答测试 MedQA 上,Med-Gemini 达到了 91.1% 的准确率,比之前最好的模型高出 4.6%。

在医学文本摘要、转诊信生成和医学简化任务中,Med-Gemini 的表现优于人类专家。此外,Med-Gemini 还能够进行多模态医学对话,为临床医生和患者提供更自然、高效的交互方式。

Med-Gemini 构建方法
Med-Gemini 模型家族的构建基于 Google 的 Gemini 模型,并针对医学领域进行了专门的优化和改进。主要方法包括:
1. 高级推理
自我训练与搜索集成
Med-Gemini 通过在 MedQA 数据集上进行自我训练,学习如何有效地利用网络搜索进行临床推理。模型会根据自身的不确定性,自动生成搜索查询并整合搜索结果,以提高答案的准确性和可靠性。











