开放医学LLM排行榜:对医疗保健领域的大型语言模型进行基准测试LLM Medical Benchmark

开放医学LLM排行榜:对医疗保健领域的大型语言模型进行基准测试LLM Medical Benchmark

开放医学LLM排行榜:对医疗保健领域的大型语言模型进行基准测试   2024 年 4 月 19 日发布

本文还提供中文。

多年来,大型语言模型 (LLM) 已成为一项突破性技术,具有巨大潜力,可以彻底改变医疗保健的各个方面。这些模型(例如、和在理解和生成类似人类的文本方面表现出了卓越的能力,使其成为解决复杂医疗任务和改善患者护理的宝贵工具。它们在各种医疗应用中显示出显著的前景,例如医疗问答 (QA)、对话系统和文本生成。此外,随着电子健康记录 (EHR)、医学文献和患者生成的数据的指数级增长,LLM 可以帮助医疗保健专业人员提取有价值的见解并做出明智的决策。

然而,尽管大型语言模型 (LLM) 在医疗保健领域具有巨大潜力,但仍存在重大而具体的挑战需要解决。

当模型用于娱乐性对话方面时,错误的影响很小;然而,在医学领域使用时情况并非如此,错误的解释和答案可能会对患者护理和结果产生严重影响。语言模型提供的信息的准确性和可靠性可能事关生死,因为它可能会影响医疗保健决策、诊断和治疗计划。

例如,当 GPT-3 收到医疗查询(见下文)时,它错误地向孕妇推荐了四环素,尽管它正确地解释了四环素的禁忌症,因为四环素可能会对胎儿造成伤害。按照这一错误建议行事可能会导致婴儿出现骨骼生长问题。

为了充分利用 LLM 在医疗保健领域的强大功能,使用专门为医疗领域设计的设置来开发和基准测试模型至关重要。此设置应考虑到医疗保健数据和应用程序的独特特征和要求。开发评估医学 LLM 的方法不仅具有学术意义,而且具有实际意义,因为它们在医疗保健领域带来了现实风险。

www.zeeklog.com  - 开放医学LLM排行榜:对医疗保健领域的大型语言模型进行基准测试LLM Medical Benchmark

开放医学-法学硕士排行榜

🩺 开放医学 LLM 排行榜旨在跟踪、排名和评估大型语言模型 (LLM) 在医学问答任务中的表现。它评估各种医学数据集中的 LLM,包括 MedQA (USMLE)、PubMedQA、MedMCQA 以及与医学和生物学相关的 MMLU 子集。排行榜对每个模型的医学知识和问答能力进行了全面评估。

数据集涵盖医学的各个方面,例如一般医学知识、临床知识、解剖学、遗传学等。它们包含需要医学推理和理解的多项选择题和开放式问题。有关数据集的更多详细信息,请参阅下面的“LLM 基准详细信息”部分。

使用的主要评估指标是准确度 (ACC)。在“提交”页面上提交模型以供自动评估。如果您对要包含的其他医疗数据集有任何意见或建议,请在我们的论坛中与我们联系。

评估目的:此排行榜的主要作用是评估和比较模型的性能。它不促进这些模型的分发、部署或临床使用。此排行榜上的模型未获准用于临床,仅供研究之用。请参阅“关于”页面中的“咨询通知”部分。

Open Medical LLM Leaderboard 的后端使用 Eleuther AI 语言模型评估工具。更多技术细节可在“关于”页面中找到。

GPT -4和Med-PaLM-2 的结果取自其官方论文。由于 Med-PaLM 不提供零样本准确度,我们使用其论文中的 5 样本准确度进行比较。除使用 5 样本准确度的 Med-PaLM-2 外,所有结果均在零样本设置下呈现。Gemini 的结果取自最近的 Clinical-NLP (NAACL 24) 论文      🏅 LLM 基准📝 关于🚀 在此提交!            选择要显示的列  平均⬆️医学问答医学问答MMLU 解剖学MMLU 临床知识MMLU 学院生物学MMLU 医学院MMLU 医学遗传学MMLU 专业医学PubMed问答类型建筑学精确集线器许可证#参数(B)中心❤️可在中心获取模特沙     显示门控/私有/已删除的模型     模型类型  🟢 预先训练🔶 经过微调⭕ 指令调整🟦RL 调整🔶  精确  float16bfloat16float32?  模型大小(以十亿个参数为单位)  ?~1.5~3~7~13~35~6070+

电视

模型

平均⬆️

医学问答

医学问答

MMLU 解剖学

MMLU 临床知识

MMLU 学院生物学

MMLU 医学院

MMLU 医学遗传学

MMLU 专业医学

PubMed问答

🔶

无效编码器/Sakura-SOLAR-Instruct-CarbonVillain-en-10.7B-v2-slerp

91.65

77.38

85.94

95.56

97.74

99.31

91.91

93.2

98.53

78.97

电视

模型

平均⬆️

医学问答

医学问答

MMLU 解剖学

MMLU 临床知识

MMLU 学院生物学

MMLU 医学院

MMLU 医学遗传学

MMLU 专业医学

PubMed问答

🔶

jiviai/medX_v1

91.65

77.38

85.94

95.56

97.74

99.31

94.8

99

98.53

76.6

🔶

bongbongs/NewMes-v10.2.1

90.79

73.92

80.83

97.04

97.74

98.61

91.91

99

98.9

79.2

🔶

jiviai/medX_v0

90.69

75.07

81.54

97.78

96.23

100

91.33

98

97.06

79.2

🔶

bongbongs/NewMes-v8.3

90.57

74.56

80.83

97.04

96.98

99.31

94.8

99

97.43

75.2

🔶

bongbongs/NewMes-v8.3

90.53

74.35

81.15

97.04

96.98

99.31

94.22

99

96.69

76

🔶

bongbongs/NewMes-v10

90.15

72.77

80.91

94.81

96.23

98.61

94.8

97

97.79

78.4

🔶

bongbongs/NewMes-v10.2

90.08

74.59

81.23

95.56

96.98

95.83

94.22

96

98.9

77.4

🔶

bongbongs/NewMes-v10.1

90.07

74.47

79.65

97.04

94.72

98.61

91.33

100

97.43

77.4

🔶

bongbongs/NewMes-v8.4

90.04

75.81

81.46

93.33

96.98

100

94.22

94

98.16

76.4

🔶

ProbeMedicalYonseiMAILab/medllama3-v20

90.01

75.4

81.07

91.85

95.85

98.61

94.8

98

98.9

75.6

🔶

ProbeMedicalYonseiMAILab/medllama3-v20

89.94

75.19

81.38

91.85

95.47

98.61

94.8

98

98.53

75.6

🔶

bongbongs/NewMes-v9

89.68

73.85

80.44

96.3

96.23

97.92

91.91

98

98.53

74    📙 引用▼     构建于。托管在

开放医学法学硕士排行榜旨在通过提供一个标准化平台来评估和比较各种大型语言模型在各种医学任务和数据集上的表现,以应对这些挑战和限制。通过对每个模型的医学知识和问答能力进行全面评估,排行榜旨在促进开发更有效、更可靠的医学法学硕士。

该平台使研究人员和从业人员能够识别不同方法的优缺点,推动该领域的进一步发展,并最终为更好的患者护理和治疗结果做出贡献

数据集、任务和评估设置

Medical-LLM 排行榜涵盖多种任务,并使用准确性作为主要评估指标(准确性衡量语言模型在各种医学 QA 数据集中提供的正确答案的百分比)。

医学问答

MedQA数据集由美国医师执照考试 (USMLE) 的多项选择题组成。它涵盖一般医学知识,包括开发集中的 11,450 个问题和测试集中的 1,273 个问题。每个问题有 4 或 5 个答案选项,数据集旨在评估美国医师执照所需的医学知识和推理技能。

医学问答

是一个大规模多项选择题问答数据集,源自印度医学入学考试 (AIIMS/NEET)。它涵盖 2.4k 个医疗保健主题和 21 个医学科目,开发集中有超过 187,000 个问题,测试集中有 6,100 个问题。每个问题都有 4 个答案选项,并附有解释。MedMCQA 评估模型的一般医学知识和推理能力。

PubMed问答

是一个闭域 QA 数据集,其中每个问题都可以通过查看相关上下文(PubMed 摘要)来回答。它由 1,000 个专家标记的问答对组成。每个问题都附有 PubMed 摘要作为上下文,任务是根据摘要中的信息提供是/否/可能的答案。数据集分为 500 个问题用于开发,500 个问题用于测试。PubMedQA 评估模型对科学生物医学文献的理解和推理能力。

MMLU 子集(医学和生物学)

(测量大规模多任务语言理解)包括来自各个领域的多项选择题。对于开放医学-LLM 排行榜,我们重点关注与医学知识最相关的子集:

  • 临床知识:265 个问题评估临床知识和决策技能。
  • 医学遗传学:100 个问题涵盖与医学遗传学相关的主题。
  • 解剖学:135 个问题评估人体解剖学的知识。
  • 专业医学:272 个问题,评估医疗专业人员所需的知识。
  • 大学生物学:144 个问题,涵盖大学水平的生物学概念。
  • 大学医学:173 个问题,评估大学水平的医学知识。

每个 MMLU 子集由具有 4 个答案选项的多项选择题组成,旨在评估模型对特定医学和生物学领域的理解。

开放医学-法学硕士排行榜对模型在医学知识和推理各个方面的表现进行了强有力的评估。

洞察与分析

开放医学-LLM 排行榜评估了各种大型语言模型 (LLM) 在各种医学问答任务中的表现。以下是我们的主要发现:

  • GPT-4-base 和 Med-PaLM-2 等商业模型在各种医疗数据集上始终保持高准确率,在不同医疗领域表现出色。
  • 、、Mistral-7B-v0.1 和开源模型,尽管参数规模较小(约 70 亿),但在某些数据集和任务上表现出颇具竞争力的性能。
  • 商业和开源模型在理解和推理科学生物医学文献(PubMedQA)以及应用临床知识和决策技能(MMLU 临床知识子集)等任务上均表现良好。

Google 的模型在各个医学领域都表现出色,尤其擅长生物统计学、细胞生物学和妇产科等数据密集型和程序性任务。然而,它在解剖学、心脏病学和皮肤病学等关键领域的表现中等偏低,这表明在综合医学应用方面存在需要进一步改进的差距。

提交模型以供评估

要将您的模型提交到 Open Medical-LLM 排行榜进行评估,请按照以下步骤操作:

1. 将模型权重转换为 Safetensor 格式

首先,将模型权重转换为 safetensors 格式。Safetensors 是一种存储权重的新格式,加载和使用起来更安全、更快捷。将模型转换为此格式还将允许排行榜在主表中显示模型的参数数量。

2. 确保与 AutoClasses 的兼容性

在提交模型之前,请确保您可以使用 Transformers 库中的 AutoClasses 加载模型和标记器。使用以下代码片段测试兼容性:

<span style="color:#111827"><span style="background-color:#ffffff"><span style="color:currentcolor"><span style="background-color:#f9fafb"><code class="language-python">from transformers import AutoConfig, AutoModel, AutoTokenizer
config = AutoConfig.from_pretrained(MODEL_HUB_ID)
model = AutoModel.from_pretrained("your model name")
tokenizer = AutoTokenizer.from_pretrained("your model name")
</code></span></span></span></span>

如果此步骤失败,请按照错误消息调试模型后再提交。很可能是您的模型上传不正确。

3. 公开你的模型

确保您的模型可公开访问。排行榜无法评估私有模型或需要特殊访问权限的模型。

4. 远程代码执行(即将推出)

目前,Open Medical-LLM 排行榜不支持需要 的模型use_remote_code=True。不过,排行榜团队正在积极致力于添加此功能,敬请期待更新。

5. 通过排行榜网站提交你的模型

一旦您的模型采用 safetensors 格式、与 AutoClasses 兼容且可公开访问,您就可以使用 Open Medical-LLM Leaderboard 网站上的“在此提交!”面板将其提交以供评估。填写所需信息,例如模型名称、描述和任何其他详细信息,然后单击提交按钮。

排行榜团队将处理您的提交内容并评估您的模型在各种医学 QA 数据集上的表现。评估完成后,您的模型的得分将添加到排行榜中,以便您将其表现与其他提交的模型进行比较。

下一步是什么?扩大开放医学法学硕士排行榜

开放医学法学硕士排行榜致力于扩大和适应研究界和医疗保健行业不断变化的需求。重点关注领域包括:

  1. 通过与研究人员、医疗保健组织和行业合作伙伴的合作,整合涵盖医疗保健各个方面(例如放射学、病理学和基因组学)的更广泛的医疗数据集。
  2. 通过探索准确性之外的其他性能指标来增强评估指标和报告能力,例如 Pointwise 分数和捕捉医疗应用独特要求的领域特定指标。
  3. 一些努力已经在这个方向上展开。如果您有兴趣参与我们计划提出的下一个基准测试,请加入我们的以了解更多信息并参与其中。我们很乐意合作并集思广益!

如果您对人工智能与医疗保健的交叉点充满热情,对为医疗保健领域构建模型充满热情,并且关心医学法学硕士的安全和幻觉问题,我们邀请您加入我们。

致谢

特别感谢所有帮助实现这一目标的人,包括 Clémentine Fourrier 和 Hugging Face 团队。我要感谢 Andreas Motzfeldt、Aryo Gema 和 Logesh Kumar Umapathi 在开发过程中对排行榜的讨论和反馈。衷心感谢 Pasquale Minervini 教授的时间、技术支持以及爱丁堡大学的 GPU 支持。

关于开放生命科学人工智能

开放生命科学 AI 是一个旨在彻底改变人工智能在生命科学和医疗保健领域的应用的项目。它是医学模型、数据集、基准和跟踪会议截止日期的中心枢纽,促进了人工智能辅助医疗保健领域的合作、创新和进步。我们致力于将开放生命科学 AI 打造成对人工智能和医疗保健交叉领域感兴趣的任何人的首选目的地。我们为研究人员、临床医生、政策制定者和行业专家提供了一个平台,让他们参与对话、分享见解并探索该领域的最新发展。

引用

如果您发现我们的评估有用,请考虑引用我们的工作

医学-法学硕士排行榜  @misc{Medical-LLM Leaderboard, author = {Ankit Pal, Pasquale Minervini, Andreas Geert Motzfeldt, Aryo Pradipta Gema and Beatrice Alex}, title = {openlifescienceai/open_medical_llm_leaderboard}, year = {2024}, publisher = {Hugging Face}, howpublished = "\url{https://huggingface.co/spaces/openlifescienceai/open_medical_llm_leaderboard}" }

Read more

60个“特征工程”计算函数(Python代码)

60个“特征工程”计算函数(Python代码)

转自:coggle数据科学 近期一些朋友询问我关于如何做特征工程的问题,有没有什么适合初学者的有效操作。 特征工程的问题往往需要具体问题具体分析,当然也有一些暴力的策略,可以在竞赛初赛前期可以带来较大提升,而很多竞赛往往依赖这些信息就可以拿到非常好的效果,剩余的则需要结合业务逻辑以及很多其他的技巧,此处我们将平时用得最多的聚合操作罗列在下方。 最近刚好看到一篇文章汇总了非常多的聚合函数,就摘录在下方,供许多初入竞赛的朋友参考。 聚合特征汇总 pandas自带的聚合函数 * 其它重要聚合函数 其它重要聚合函数&分类分别如下。 def median(x):     return np.median(x) def variation_coefficient(x):     mean = np.mean(x)     if mean != 0:         return np.std(x) / mean     else:         return np.nan def variance(x):     return

By Ne0inhk
90w,确实可以封神了!

90w,确实可以封神了!

要说24年一定最热的技术,还得是AIGC! 前段时间阿里旗下的开源项目,登上GitHub热榜! AI大热,如今ChatGPT的优异表现,必然会出现各种细分场景应用的工具软件,和大量岗位项目! 山雨欲来风满楼,强人工智能的出现,所有科技公司已经开始巨量扩招此领域的人才。算法的岗位,近三个月已经增长68%!这件事在HR届也是相当震撼的。 目前各行各业都不景气的市场,人工智能岗位却一直保持常青!甚至同属AI边缘岗都比其他岗薪资高40%! 与此同时,AI算法岗上岸也不简单,竞争激烈,好公司核心岗位不用说,谁都想去。 所以事实就是,想要上岸,门槛也逐渐变高,项目经历、实习经历都很重要,越早明白这个道理就越能提前建立起自己的优势。 但我在b站逛知识区的时候,经常看到有些同学,因为一些客观原因导致无法参加实习,这种情况下,如果你想提升背景,增加项目经历的话,可以试试这个《CV/NLP 算法工程师培养计划》。 目前已经有上千位同学通过该计划拿到offer了,最新一期学员就业薪资最高能拿到78K!年薪94w! 优势就是有BAT大厂讲师带领,手把手带做AI真实企业项目(包含CV、NLP等

By Ne0inhk
再见nohup!试试这个神器,Python Supervisor!

再见nohup!试试这个神器,Python Supervisor!

👇我的小册 45章教程:() ,原价299,限时特价2杯咖啡,满100人涨10元。 作者丨Ais137 https://juejin.cn/post/7354406980784373798 1. 概述 Supervisor 是一个 C/S 架构的进程监控与管理工具,本文主要介绍其基本用法和部分高级特性,用于解决部署持久化进程的稳定性问题。 2. 问题场景 在实际的工作中,往往会有部署持久化进程的需求,比如接口服务进程,又或者是消费者进程等。这类进程通常是作为后台进程持久化运行的。 一般的部署方法是通过 nohup cmd & 命令来部署。但是这种方式有个弊端是在某些情况下无法保证目标进程的稳定性运行,有的时候 nohup 运行的后台任务会因为未知原因中断,从而导致服务或者消费中断,进而影响项目的正常运行。 为了解决上述问题,通过引入 Supervisor 来部署持久化进程,提高系统运行的稳定性。 3. Supervisor 简介 Supervisor is a client/

By Ne0inhk
第一本给程序员看的AI Agent图书上市了!

第一本给程序员看的AI Agent图书上市了!

AI Agent火爆到什么程度? OpenAI创始人奥特曼预测,未来各行各业,每一个人都可以拥有一个AI Agent;比尔·盖茨在2023年层预言:AI Agent将彻底改变人机交互方式,并颠覆整个软件行业;吴恩达教授在AI Ascent 2024演讲中高赞:AI Agent是一个令人兴奋的趋势,所有从事AI开发的人都应该关注。而国内的各科技巨头也纷纷布局AI Agent平台,如:钉钉的AI PaaS、百度智能云千帆大模型平台等等。 Agent 是未来最重要的智能化工具。对于程序员来说,是时候将目光转向大模型的应用开发了,率先抢占AI的下一个风口AI Agent。 小异带来一本新书《大模型应用开发 动手做 AI Agent》,这本书由《GPT图解》的作者黄佳老师创作,从0到1手把手教你做AI Agent。现在下单享受5折特惠! ▼点击下方,即可5折起购书 有这样一本秘籍在手,程序员们这下放心了吧,让我们先来揭开 Agent 的神秘面纱。 AI Agent 面面观

By Ne0inhk