开放医学LLM排行榜:对医疗保健领域的大型语言模型进行基准测试LLM Medical Benchmark
开放医学LLM排行榜:对医疗保健领域的大型语言模型进行基准测试 2024 年 4 月 19 日发布
本文还提供中文。
多年来,大型语言模型 (LLM) 已成为一项突破性技术,具有巨大潜力,可以彻底改变医疗保健的各个方面。这些模型(例如、和在理解和生成类似人类的文本方面表现出了卓越的能力,使其成为解决复杂医疗任务和改善患者护理的宝贵工具。它们在各种医疗应用中显示出显著的前景,例如医疗问答 (QA)、对话系统和文本生成。此外,随着电子健康记录 (EHR)、医学文献和患者生成的数据的指数级增长,LLM 可以帮助医疗保健专业人员提取有价值的见解并做出明智的决策。
然而,尽管大型语言模型 (LLM) 在医疗保健领域具有巨大潜力,但仍存在重大而具体的挑战需要解决。
当模型用于娱乐性对话方面时,错误的影响很小;然而,在医学领域使用时情况并非如此,错误的解释和答案可能会对患者护理和结果产生严重影响。语言模型提供的信息的准确性和可靠性可能事关生死,因为它可能会影响医疗保健决策、诊断和治疗计划。
例如,当 GPT-3 收到医疗查询(见下文)时,它错误地向孕妇推荐了四环素,尽管它正确地解释了四环素的禁忌症,因为四环素可能会对胎儿造成伤害。按照这一错误建议行事可能会导致婴儿出现骨骼生长问题。
为了充分利用 LLM 在医疗保健领域的强大功能,使用专门为医疗领域设计的设置来开发和基准测试模型至关重要。此设置应考虑到医疗保健数据和应用程序的独特特征和要求。开发评估医学 LLM 的方法不仅具有学术意义,而且具有实际意义,因为它们在医疗保健领域带来了现实风险。
开放医学-法学硕士排行榜
🩺 开放医学 LLM 排行榜旨在跟踪、排名和评估大型语言模型 (LLM) 在医学问答任务中的表现。它评估各种医学数据集中的 LLM,包括 MedQA (USMLE)、PubMedQA、MedMCQA 以及与医学和生物学相关的 MMLU 子集。排行榜对每个模型的医学知识和问答能力进行了全面评估。
数据集涵盖医学的各个方面,例如一般医学知识、临床知识、解剖学、遗传学等。它们包含需要医学推理和理解的多项选择题和开放式问题。有关数据集的更多详细信息,请参阅下面的“LLM 基准详细信息”部分。
使用的主要评估指标是准确度 (ACC)。在“提交”页面上提交模型以供自动评估。如果您对要包含的其他医疗数据集有任何意见或建议,请在我们的论坛中与我们联系。
评估目的:此排行榜的主要作用是评估和比较模型的性能。它不促进这些模型的分发、部署或临床使用。此排行榜上的模型未获准用于临床,仅供研究之用。请参阅“关于”页面中的“咨询通知”部分。
Open Medical LLM Leaderboard 的后端使用 Eleuther AI 语言模型评估工具。更多技术细节可在“关于”页面中找到。
GPT -4和Med-PaLM-2 的结果取自其官方论文。由于 Med-PaLM 不提供零样本准确度,我们使用其论文中的 5 样本准确度进行比较。除使用 5 样本准确度的 Med-PaLM-2 外,所有结果均在零样本设置下呈现。Gemini 的结果取自最近的 Clinical-NLP (NAACL 24) 论文 🏅 LLM 基准📝 关于🚀 在此提交! 选择要显示的列 平均⬆️医学问答医学问答MMLU 解剖学MMLU 临床知识MMLU 学院生物学MMLU 医学院MMLU 医学遗传学MMLU 专业医学PubMed问答类型建筑学精确集线器许可证#参数(B)中心❤️可在中心获取模特沙 显示门控/私有/已删除的模型 模型类型 🟢 预先训练🔶 经过微调⭕ 指令调整🟦RL 调整🔶 精确 float16bfloat16float32? 模型大小(以十亿个参数为单位) ?~1.5~3~7~13~35~6070+
电视
模型
平均⬆️
医学问答
医学问答
MMLU 解剖学
MMLU 临床知识
MMLU 学院生物学
MMLU 医学院
MMLU 医学遗传学
MMLU 专业医学
PubMed问答
🔶
无效编码器/Sakura-SOLAR-Instruct-CarbonVillain-en-10.7B-v2-slerp
91.65
77.38
85.94
95.56
97.74
99.31
91.91
93.2
98.53
78.97
电视
模型
平均⬆️
医学问答
医学问答
MMLU 解剖学
MMLU 临床知识
MMLU 学院生物学
MMLU 医学院
MMLU 医学遗传学
MMLU 专业医学
PubMed问答
🔶
jiviai/medX_v1
91.65
77.38
85.94
95.56
97.74
99.31
94.8
99
98.53
76.6
🔶
bongbongs/NewMes-v10.2.1
90.79
73.92
80.83
97.04
97.74
98.61
91.91
99
98.9
79.2
🔶
jiviai/medX_v0
90.69
75.07
81.54
97.78
96.23
100
91.33
98
97.06
79.2
🔶
bongbongs/NewMes-v8.3
90.57
74.56
80.83
97.04
96.98
99.31
94.8
99
97.43
75.2
🔶
bongbongs/NewMes-v8.3
90.53
74.35
81.15
97.04
96.98
99.31
94.22
99
96.69
76
🔶
bongbongs/NewMes-v10
90.15
72.77
80.91
94.81
96.23
98.61
94.8
97
97.79
78.4
🔶
bongbongs/NewMes-v10.2
90.08
74.59
81.23
95.56
96.98
95.83
94.22
96
98.9
77.4
🔶
bongbongs/NewMes-v10.1
90.07
74.47
79.65
97.04
94.72
98.61
91.33
100
97.43
77.4
🔶
bongbongs/NewMes-v8.4
90.04
75.81
81.46
93.33
96.98
100
94.22
94
98.16
76.4
🔶
ProbeMedicalYonseiMAILab/medllama3-v20
90.01
75.4
81.07
91.85
95.85
98.61
94.8
98
98.9
75.6
🔶
ProbeMedicalYonseiMAILab/medllama3-v20
89.94
75.19
81.38
91.85
95.47
98.61
94.8
98
98.53
75.6
🔶
bongbongs/NewMes-v9
89.68
73.85
80.44
96.3
96.23
97.92
91.91
98
98.53
74 📙 引用▼ 构建于。托管在
开放医学法学硕士排行榜旨在通过提供一个标准化平台来评估和比较各种大型语言模型在各种医学任务和数据集上的表现,以应对这些挑战和限制。通过对每个模型的医学知识和问答能力进行全面评估,排行榜旨在促进开发更有效、更可靠的医学法学硕士。
该平台使研究人员和从业人员能够识别不同方法的优缺点,推动该领域的进一步发展,并最终为更好的患者护理和治疗结果做出贡献
数据集、任务和评估设置
Medical-LLM 排行榜涵盖多种任务,并使用准确性作为主要评估指标(准确性衡量语言模型在各种医学 QA 数据集中提供的正确答案的百分比)。
医学问答
MedQA数据集由美国医师执照考试 (USMLE) 的多项选择题组成。它涵盖一般医学知识,包括开发集中的 11,450 个问题和测试集中的 1,273 个问题。每个问题有 4 或 5 个答案选项,数据集旨在评估美国医师执照所需的医学知识和推理技能。
医学问答
是一个大规模多项选择题问答数据集,源自印度医学入学考试 (AIIMS/NEET)。它涵盖 2.4k 个医疗保健主题和 21 个医学科目,开发集中有超过 187,000 个问题,测试集中有 6,100 个问题。每个问题都有 4 个答案选项,并附有解释。MedMCQA 评估模型的一般医学知识和推理能力。
PubMed问答
是一个闭域 QA 数据集,其中每个问题都可以通过查看相关上下文(PubMed 摘要)来回答。它由 1,000 个专家标记的问答对组成。每个问题都附有 PubMed 摘要作为上下文,任务是根据摘要中的信息提供是/否/可能的答案。数据集分为 500 个问题用于开发,500 个问题用于测试。PubMedQA 评估模型对科学生物医学文献的理解和推理能力。
MMLU 子集(医学和生物学)
(测量大规模多任务语言理解)包括来自各个领域的多项选择题。对于开放医学-LLM 排行榜,我们重点关注与医学知识最相关的子集:
- 临床知识:265 个问题评估临床知识和决策技能。
- 医学遗传学:100 个问题涵盖与医学遗传学相关的主题。
- 解剖学:135 个问题评估人体解剖学的知识。
- 专业医学:272 个问题,评估医疗专业人员所需的知识。
- 大学生物学:144 个问题,涵盖大学水平的生物学概念。
- 大学医学:173 个问题,评估大学水平的医学知识。
每个 MMLU 子集由具有 4 个答案选项的多项选择题组成,旨在评估模型对特定医学和生物学领域的理解。
开放医学-法学硕士排行榜对模型在医学知识和推理各个方面的表现进行了强有力的评估。
洞察与分析
开放医学-LLM 排行榜评估了各种大型语言模型 (LLM) 在各种医学问答任务中的表现。以下是我们的主要发现:
- GPT-4-base 和 Med-PaLM-2 等商业模型在各种医疗数据集上始终保持高准确率,在不同医疗领域表现出色。
- 、、Mistral-7B-v0.1 和开源模型,尽管参数规模较小(约 70 亿),但在某些数据集和任务上表现出颇具竞争力的性能。
- 商业和开源模型在理解和推理科学生物医学文献(PubMedQA)以及应用临床知识和决策技能(MMLU 临床知识子集)等任务上均表现良好。
Google 的模型在各个医学领域都表现出色,尤其擅长生物统计学、细胞生物学和妇产科等数据密集型和程序性任务。然而,它在解剖学、心脏病学和皮肤病学等关键领域的表现中等偏低,这表明在综合医学应用方面存在需要进一步改进的差距。
提交模型以供评估
要将您的模型提交到 Open Medical-LLM 排行榜进行评估,请按照以下步骤操作:
1. 将模型权重转换为 Safetensor 格式
首先,将模型权重转换为 safetensors 格式。Safetensors 是一种存储权重的新格式,加载和使用起来更安全、更快捷。将模型转换为此格式还将允许排行榜在主表中显示模型的参数数量。
2. 确保与 AutoClasses 的兼容性
在提交模型之前,请确保您可以使用 Transformers 库中的 AutoClasses 加载模型和标记器。使用以下代码片段测试兼容性:
<span style="color:#111827"><span style="background-color:#ffffff"><span style="color:currentcolor"><span style="background-color:#f9fafb"><code class="language-python">from transformers import AutoConfig, AutoModel, AutoTokenizer
config = AutoConfig.from_pretrained(MODEL_HUB_ID)
model = AutoModel.from_pretrained("your model name")
tokenizer = AutoTokenizer.from_pretrained("your model name")
</code></span></span></span></span>
如果此步骤失败,请按照错误消息调试模型后再提交。很可能是您的模型上传不正确。
3. 公开你的模型
确保您的模型可公开访问。排行榜无法评估私有模型或需要特殊访问权限的模型。
4. 远程代码执行(即将推出)
目前,Open Medical-LLM 排行榜不支持需要 的模型use_remote_code=True
。不过,排行榜团队正在积极致力于添加此功能,敬请期待更新。
5. 通过排行榜网站提交你的模型
一旦您的模型采用 safetensors 格式、与 AutoClasses 兼容且可公开访问,您就可以使用 Open Medical-LLM Leaderboard 网站上的“在此提交!”面板将其提交以供评估。填写所需信息,例如模型名称、描述和任何其他详细信息,然后单击提交按钮。
排行榜团队将处理您的提交内容并评估您的模型在各种医学 QA 数据集上的表现。评估完成后,您的模型的得分将添加到排行榜中,以便您将其表现与其他提交的模型进行比较。
下一步是什么?扩大开放医学法学硕士排行榜
开放医学法学硕士排行榜致力于扩大和适应研究界和医疗保健行业不断变化的需求。重点关注领域包括:
- 通过与研究人员、医疗保健组织和行业合作伙伴的合作,整合涵盖医疗保健各个方面(例如放射学、病理学和基因组学)的更广泛的医疗数据集。
- 通过探索准确性之外的其他性能指标来增强评估指标和报告能力,例如 Pointwise 分数和捕捉医疗应用独特要求的领域特定指标。
- 一些努力已经在这个方向上展开。如果您有兴趣参与我们计划提出的下一个基准测试,请加入我们的以了解更多信息并参与其中。我们很乐意合作并集思广益!
如果您对人工智能与医疗保健的交叉点充满热情,对为医疗保健领域构建模型充满热情,并且关心医学法学硕士的安全和幻觉问题,我们邀请您加入我们。
致谢
特别感谢所有帮助实现这一目标的人,包括 Clémentine Fourrier 和 Hugging Face 团队。我要感谢 Andreas Motzfeldt、Aryo Gema 和 Logesh Kumar Umapathi 在开发过程中对排行榜的讨论和反馈。衷心感谢 Pasquale Minervini 教授的时间、技术支持以及爱丁堡大学的 GPU 支持。
关于开放生命科学人工智能
开放生命科学 AI 是一个旨在彻底改变人工智能在生命科学和医疗保健领域的应用的项目。它是医学模型、数据集、基准和跟踪会议截止日期的中心枢纽,促进了人工智能辅助医疗保健领域的合作、创新和进步。我们致力于将开放生命科学 AI 打造成对人工智能和医疗保健交叉领域感兴趣的任何人的首选目的地。我们为研究人员、临床医生、政策制定者和行业专家提供了一个平台,让他们参与对话、分享见解并探索该领域的最新发展。
引用
如果您发现我们的评估有用,请考虑引用我们的工作
医学-法学硕士排行榜 @misc{Medical-LLM Leaderboard, author = {Ankit Pal, Pasquale Minervini, Andreas Geert Motzfeldt, Aryo Pradipta Gema and Beatrice Alex}, title = {openlifescienceai/open_medical_llm_leaderboard}, year = {2024}, publisher = {Hugging Face}, howpublished = "\url{https://huggingface.co/spaces/openlifescienceai/open_medical_llm_leaderboard}" }