开源医疗大模型排行榜：健康领域大模型基准测试

综述由AI生成开源医疗大模型排行榜及其在健康领域的应用。文章详细阐述了大型语言模型在医疗行业的潜力与风险，特别是幻觉问题对病人护理的潜在危害。重点分析了排行榜使用的核心数据集，包括 MedQA、MedMCQA、PubMedQA 及 MMLU 医学子集，解释了各数据集的评估侧重点。文中对比了商业模型与开源模型的性能差异，指出开源小参数模型在特定任务上已具备竞争力。此外，文章提供了模型提交的详细技术指南，涵盖 Safetensors 格式转换、AutoClasses 兼容性检查及公开访问要求。最后，探讨了医疗 AI 的未来发展方向，包括更多数据集的纳入、评估指标的优化以及伦理安全考量，强调 AI 应作为辅助工具而非决策主体。

机器人发布于 2025/2/6更新于 2026/6/222 浏览

开源医疗大模型排行榜：健康领域大模型基准测试

多年来，大型语言模型 (LLMs) 已经发展成为一项具有巨大潜力，能够彻底改变医疗行业各个方面的开创性技术。这些模型，如 GPT-3、GPT-4 和 Med-PaLM 2，在理解和生成类人文本方面表现出了卓越的能力，使它们成为处理复杂医疗任务和改善病人护理的宝贵工具。它们在多种医疗应用中显示出巨大的前景，如医疗问答 (QA)、对话系统和文本生成。此外，随着电子健康记录 (EHRs)、医学文献和病人生成数据的指数级增长，LLMs 可以帮助医疗专业人员提取宝贵见解并做出明智的决策。

然而，尽管大型语言模型 (LLMs) 在医疗领域具有巨大的潜力，但仍存在一些重要且具体的挑战需要解决。当模型用于娱乐对话方面时，错误的影响很小；然而，在医疗领域使用时，情况并非如此。错误的解释和答案可能会对病人的护理和结果产生严重后果。语言模型提供的信息的准确性和可靠性可能是生死攸关的问题，因为它可能影响医疗决策、诊断和治疗计划。

例如，当有人问关于孕妇可以用什么药的问题时，早期的模型曾错误地建议使用四环素，尽管它也正确地说明了四环素对胎儿有害，孕妇不应该用。如果真按照这个错误的建议去给孕妇用药，可能会害得孩子将来骨头长不好。这种幻觉 (Hallucination) 现象在通用大模型中并不罕见，但在医疗垂直领域却是不可接受的。

要想在医疗领域用好这种大型语言模型，就得根据医疗行业的特点来设计和基准测试这些模型。因为医疗数据和应用有其特殊的地方，得考虑到这些。而且，开发方法来评估这些用于医疗的模型不只是为了研究，而是因为它们在现实医疗工作中用错了可能会带来风险，所以这事儿实际上很重要。

数据集、任务和评估设置

医疗大模型排行榜包含多种任务，并使用准确度作为其主要评估指标 (准确度衡量的是语言模型在各个医疗问答数据集中提供的正确答案的百分比)。以下是核心数据集的详细解析：

MedQA

数据集包含来自美国医学执照考试 (USMLE) 的多项选择题。它覆盖了广泛的医学知识，并包括 11,450 个训练集问题和 1,273 个测试集问题。每个问题有 4 或 5 个答案选项，该数据集旨在评估在美国获得医学执照所需的医学知识和推理技能。这是衡量临床推理能力的重要基准。

MedMCQA

是一个大规模的多项选择问答数据集，来源于印度的医学入学考试 (AIIMS/NEET)。它涵盖了 2400 个医疗领域主题和 21 个医学科目，训练集中有超过 187,000 个问题，测试集中有 6,100 个问题。每个问题有 4 个答案选项，并附有解释。MedMCQA 评估模型的通用医学知识和推理能力，特别是在多语言和多文化背景下的适应性。

PubMedQA

是一个封闭领域的问答数据集，每个问题都可以通过查看相关上下文 (PubMed 摘要) 来回答。它包含 1,000 个专家标注的问题 - 答案对。每个问题都附有 PubMed 摘要作为上下文，任务是提供基于摘要信息的是/否/也许答案。该数据集分为 500 个训练问题和 500 个测试问题。PubMedQA 评估模型理解和推理科学生物医学文献的能力，这对阅读科研论文至关重要。

MMLU 子集 (医学和生物学)

包含来自各个领域多项选择题。对于开源医疗大模型排行榜，我们关注与医学知识最相关的子集：

临床知识: 265 个问题，评估临床知识和决策技能。
医学遗传学: 100 个问题，涵盖医学遗传学相关主题。
解剖学: 135 个问题，评估人体解剖学知识。
专业医学: 272 个问题，评估医疗专业人员所需的知识。
大学生物学: 144 个问题，涵盖大学水平的生物学概念。
大学医学: 173 个问题，评估大学水平的医学知识。

每个 MMLU 子集都包含有 4 个答案选项的多项选择题，旨在评估模型对特定医学和生物领域理解。通过细分这些领域，我们可以更精细地了解模型在哪些具体科室或知识点上存在短板。

开源医疗大模型排行榜提供了一个鲁棒的评估，衡量模型在医学知识和推理各方面的表现。这有助于研究人员识别模型在不同医学分支上的泛化能力。

洞察与分析

开源医疗大模型排行榜评估了各种大型语言模型 (LLMs) 在一系列医疗问答任务上的表现。以下是我们的一些关键发现：

商业模型优势：商业模型如 GPT-4-base 和 Med-PaLM-2 在各个医疗数据集上始终获得高准确度分数，展现了在不同医疗领域中的强劲性能。这主要得益于其庞大的训练数据和高质量的微调策略。
开源模型潜力：开源模型，如 Starling-LM-7B、gemma-7b、Mistral-7B-v0.1 和 Hermes-2-Pro-Mistral-7B，尽管参数量大约只有 70 亿，但在某些数据集和任务上展现出了有竞争力的性能。这表明小参数量的模型经过良好的指令微调后，也能在特定医疗任务上达到可用水平。

开源医疗大模型排行榜：健康领域大模型基准测试