大模型在医学领域的应用
目前,大模型已经被应用到各个领域,包括金融、法律、教育和娱乐等。医学领域因其庞大且多样化的数据、复杂的问题以及对个性化治疗的需求,无疑是大模型应用最具前景的领域之一。大模型可用于诊断、治疗方案设计、药物研发等,为医疗领域带来更高效、准确和个性化的解决方案。

大模型在临床方向的应用
大模型是将医疗能力惠及更多人的利器。随着 ChatGPT 在美国医学执业考试中取得了及格分数,表明大模型在医学知识技能方面具备一定水平的理解和应用能力。当研究者将 ChatGPT 对患者提问的回答与医生(在业余时间在社交网络上回答)提供的回答进行比较时,大模型的回答在质量和共情方面甚至更为出色。与此同时,谷歌面向医学领域研究开发的大模型 Med-PaLM2 更是接近于专业医生的水平。Med-PaLM2 不仅能理解和回答文本问题,还能处理和理解多模态医学信息。从图像、电子健康记录、传感器、可穿戴设备、基因组等数据源获取信息并构建人工智能系统,将使世界一流的医疗能力得以普及到每个人。
大模型是减轻临床医生事务性工作负担的好帮手。以出院记录为例,凭借大模型强大的理解和文本生成能力,医生只需要输入特定信息的简要内容,大模型几秒钟内即可输出正式的出院记录。如果大模型可以接入到医生的整个工作流程中,那么大模型有望对通话、文档、电子表格、PPT 的信息自动整合和处理,极大地提升事务性工作处理效率。
大模型在科研方向的应用
大模型是有效的写作辅助工具。鉴于大模型强大的理解和文本生成能力,大模型可以用于总结信息、描述实验结果、重新撰写段落以适应特定的受众。同时通过使用特定领域的数据对大模型进行微调,还可以大幅提高同行评审、调研报告生成等方面的效率。
大模型是有力的研究分析工具。基因和蛋白质结构数据通常以文本形式表示,并且可通过语言大模型为代表的自然语言处理技术进行处理。例如 AlphaFold 从氨基酸序列推断蛋白质结构,ProGen 生成具有可预测生物功能的蛋白质序列,而 TSSNote-CyaPromBERT 可识别细菌 DNA 中的启动子区域。同时作为生成式算法,大模型也可以用于合成数据以扩大数据集的规模,从而促进如罕见病等数据匮乏临床研究。
大模型在教育方向的应用
GPT-4 和 Med-PaLM 2 在医学测试中出色结果表明,对于当前在这些医学测试中取得较低水平的学生,大模型可以作为有效的教学工具。GPT-4 允许用户明确描述在对话过程中期望聊天机器人应承担的角色;如'苏格拉底导师模式',那么大模型会通过以递减难度的问题引导学生自行思考,直到学生能够解决手头的更完整的问题。同时,使用者同大模型的对话记录可以使人类教师监控进度,并根据学生弱点进行教学调整。目前,可汗学院正在积极研究如何将 GPT-4 等 AI 工具应用于'可汗小助手'中,以达到优化在线教学的目标。Duolingo,一个主要用于学习语言的免费平台,也已经集成 GPT-4 以提高在线学习的互动性。通过大模型,尤其是面向医学领域微调的大模型可以有效地提升医学教育的教学效果。
医学领域的一些大模型
以下是医学领域几个具有代表性的大模型:
BioBERT
BioBERT 是一个基于 Transformer 架构,专门用于生物医学文本挖掘的双向编码器模型。BioBERT 主要使用 PubMed 摘要和 PubMed Central 全文文章作为训练数据。这些数据包含了大量的生物医学文献,涵盖了医学的各个领域,因此使得 BioBERT 能够理解和处理生物医学领域中的特定词汇和概念。
GatorTron
GatorTron 是第一个由学术医疗机构开发的医学大模型。它主要使用佛罗里达大学去标识化电子病历、PubMed 文章和维基百科等超过 90 亿字的文本数据进行训练。GatorTron 训练使用的电子病历是从 2011 年至 2021 年由超过 126 个临床部门创作的,涵盖了大约 5000 万次包括但不限于住院、门诊和急诊部门的就诊情况。
BioMedLM
BioMedLM 斯坦福大学开发的一个基于 GPT 风格的生物医学语言模型。BioMedLM 的初衷是为了解决现有大型语言模型如 GPT-4 和 Med-PaLM2 在参数规模、计算成本、互联网依赖以及数据来源不透明性等方面的问题。相较于这些模型,BioMedLM 提供了一个更小巧、针对性强的解决方案,不仅在性能上与更大的模型相媲美,还在隐私保护、经济性等方面展现出优势。
ClinicalGPT
ClinicalGPT 是由北京邮电大学发布的一个专为临床场景设计和优化的大模型。ClinicalGPT 使用了 cMedQA2、cMedQA-KG、MD-EHR、MEDQA-MCMLE 和 MedDialog 数据集进行训练及评估。其中,cMedQA2 数据集是一个中文医学问答数据集,由 12 万个问题和 22.6 万个答案组成;MD-EHR 数据集由来自中国多中心大型医院的电子健康记录组成,包含 10 万条记录,涵盖了呼吸、消化、泌尿、精神病学、神经病学、妇科和血液学等一系列疾病;MEDQA-MCMLE 数据集是 MEDQA 原始数据集的一个子集,包含了 3.4 万条以多选题形式呈现的中文医学考试问题。

