开源医疗大模型排行榜:健康领域基准测试与评估

多年来,大型语言模型 (LLMs) 已经发展成为一项具有巨大潜力、能够彻底改变医疗行业各个方面的开创性技术。这些模型在理解和生成类人文本方面表现出了卓越的能力,使它们成为处理复杂医疗任务和改善病人护理的宝贵工具。它们在多种医疗应用中显示出巨大的前景,如医疗问答 (QA)、对话系统和文本生成。此外,随着电子健康记录 (EHRs)、医学文献和病人生成数据的指数级增长,LLMs 可以帮助医疗专业人员提取宝贵见解并做出明智的决策。
然而,尽管大型语言模型在医疗领域具有巨大的潜力,但仍存在一些重要且具体的挑战需要解决。
当模型用于娱乐对话方面时,错误的影响很小;然而,在医疗领域使用时,情况并非如此。错误的解释和答案可能会对病人的护理和结果产生严重后果。语言模型提供的信息的准确性和可靠性可能是生死攸关的问题,因为它可能影响医疗决策、诊断和治疗计划。
例如,当有人问 GPT-3 关于孕妇可以用什么药的问题时,GPT-3 错误地建议使用四环素,尽管它也正确地说明了四环素对胎儿有害,孕妇不应该用。如果真按照这个错误的建议去给孕妇用药,可能会害得孩子将来骨头长不好。这种幻觉现象在通用模型中较为常见,但在专业医疗场景中是不可接受的。

要想在医疗领域用好这种大型语言模型,就得根据医疗行业的特点来设计和基准测试这些模型。因为医疗数据和应用有其特殊的地方,得考虑到这些。而且,开发方法来评估这些用于医疗的模型不只是为了研究,而是因为它们在现实医疗工作中用错了可能会带来风险,所以这事儿实际上很重要。
开源医疗大模型排行榜旨在通过提供一个标准化的平台来评估和比较各种大型语言模型在多种医疗任务和数据集上的性能,以此来解决这些挑战和限制。通过提供对每个模型的医疗知识和问答能力的全面评估,该排行榜促进了更有效、更可靠的医疗大模型的发展。
这个平台使研究人员和从业者能够识别不同方法的优势和不足,推动该领域的进一步发展,并最终有助于改善患者的治疗结果。
数据集、任务和评估设置
医疗大模型排行榜包含多种任务,并使用准确度作为其主要评估指标(准确度衡量的是语言模型在各个医疗问答数据集中提供的正确答案的百分比)。
MedQA
数据集包含来自美国医学执照考试 (USMLE) 的多项选择题。它覆盖了广泛的医学知识,并包括 11,450 个训练集问题和 1,273 个测试集问题。每个问题有 4 或 5 个答案选项,该数据集旨在评估在美国获得医学执照所需的医学知识和推理技能。这是目前最权威的医学基准之一,难度较高,要求模型具备深层的临床推理能力。

MedMCQA
是一个大规模的多项选择问答数据集,来源于印度的医学入学考试 (AIIMS/NEET)。它涵盖了 2400 个医疗领域主题和 21 个医学科目,训练集中有超过 187,000 个问题,测试集中有 6,100 个问题。每个问题有 4 个答案选项,并附有解释。MedMCQA 评估模型的通用医学知识和推理能力,其规模庞大,适合测试模型的知识广度。

PubMedQA
是一个封闭领域的问答数据集,每个问题都可以通过查看相关上下文 (PubMed 摘要) 来回答。它包含 1,000 个专家标注的问题 - 答案对。每个问题都附有 PubMed 摘要作为上下文,任务是提供基于摘要信息的是/否/也许答案。该数据集分为 500 个训练问题和 500 个测试问题。PubMedQA 评估模型理解和推理科学生物医学文献的能力,重点在于从非结构化文本中提取关键结论。







