医疗垂类大模型应走出'应试'误区,聚焦真实场景落地
'现阶段,许多医疗垂类大模型就是伪命题,推理能力不行。' 一位观望大模型已久的医疗从业者玄彬(化名)发出了极为尖锐的批评。
在他看来,目前人工智能是靠 scaling law 涌现的,模型性能随着模型规模、数据规模和算力规模等因素的增大而提升。只要还是 Transformer,就不可能有垂类的机会。
过去两年,为了追上生成式 AI 的热潮,不少企业将开源大模型稍加'改造'后就冠以自有产品名,套牌、过度宣传屡见不鲜,铺天盖地的榜单,各种评测熙熙攘攘。'大模型用不用不重要,先要拥有大模型。'思潮下,历经井喷式的发展,也造就了医疗大模型圈里鱼龙混杂、良莠不齐。
当通用大模型掀起了低价肉搏战,从 5 元到 1 元,不断击穿大模型低价,巨头们降价正酣。医疗大模型虽在病历书写、诊断等细分领域展示出巨大潜力,但商业化路径仍不清晰,行业仍在苦苦寻觅杀手级场景。
与此同时,技术不断迭代,随着 OpenAI 和 Mistral AI 的助力,专家混合(MoE)一时间炙手可热。这种混合模型,由多个子模型(即专家)组成,每个子模型都是一个局部模型,专门处理输入空间的一个子集。简而言之,它使用一个门控网络来决定每个数据应该被哪个模型去训练,从而减轻不同类型样本之间的干扰。
天才黑客乔治・霍兹曾爆料,GPT-4 其实是一个混合模型,采用了由 8 个专家模型组成的集成系统,每个专家模型都有 2200 亿个参数。
2023 年底,微软首席科学家埃里克・霍尔维茨曾发布一项调研报告《The Power of Prompting》,他们研究发现,在相同的基准上,利用提示词工程就能让 GPT-4 的性能明显优于专门针对医疗应用进行微调的领先模型。
'Medprompt 研究表明,更深入地探索将通用模型转化为专业模型的提示可能性,并将这些模型的优势扩展到新领域和新应用,是非常有价值的。'埃里克·霍尔维茨欣喜写道。
以上种种,使得医疗垂类大模型的质疑声越来越响:医疗大模型是伪命题吗?我们可以期待怎样的医疗大模型?
01 衡量标准:忍受 VS 享受,要求 VS 需要
在和缓医疗 CEO 李宇看来,判断大模型的应用是否成立,主要在于两个点:一是对于用户来说,大模型是忍受,还是享受;二是对于使用者而言,是要求还是需要。
'现在整个医疗行业都在寻找杀手级应用,找场景,其实很重要一点就在于找到强要求、强监管下的应用。'他阐述道,邮件和 Office 这种才叫杀手应用,发生在每天应用的工具中,具备非常高的便捷性。
纵览目前的医疗大模型,多聚焦患者问诊、医生助手、药物研发、健康科普等领域。李宇最看好的则是病历质控系统以及 DRG/DIP 下,监管医院的临床诊疗行为和收费合理性的医保控费应用。
'对于医院至关紧要的,才会有大规模商业机会。'李宇认为,文字模型的杀手级应用应该还是在病历相关的场景上,比如 DRG 要求的病案首页等医生极易出错的地方,抓住了医院端需求,并打通了业务场景,落地了才能有未来。
当大模型进入医疗领域之后,更多的资源应该探索如何寻找高频且刚需的场景,如此才能诞生下一个超级应用的可能性。当享受与需要二者兼备,医疗大模型才能真正成立。
复旦大学中国研究院副研究员刘典曾在线下论坛中一针见血指出,行业的核心是数据和原有的工作流。只要大模型能很好解决这两件事,且成本不高于原有方案,就不能说是伪命题。
换言之,只有在医疗领域真正实现'降本增效',积累真实世界数据,才能称得上医疗大模型。
要知道,大模型想要真正脱颖而出,几方面能力至关重要:
- 获取最新知识能力:医学知识是不断更迭的,需要动态获取最新的医学知识。
- 理解多模态数据:医学影像、X 光片,心电图等。
- 高级推理能力:大模型不能永远只做'应试教育的高材生',真正应用于医疗场景中,非常依赖模型的推理能力,毕竟好的医生都是推理专家。
- 长文本能力:处理复杂的病历记录和文献。
百模大战尽管听起来热闹,但是真正具备模型能力的仍是少数,毕竟大模型推理这类访存密集型任务需要真金白银的投入。财通证券曾经测算,支撑 GPT-3.5 推理任务的 A100 数量或至少在 5 万张左右。
'我觉得医疗垂直大模型不成立的原因就是它的推理能力会很弱,你不会希望一个熟读各类医学百科、疾病诊疗指南书籍的学生来当你的医生。'玄彬坚定说道,虽然它是个专业的学生,但作为医疗场景应用,还是有些危险。
02 大模型的终局——通用还是垂直?
事实上,通用大模型与垂直大模型之争从 2024 年初便备受关注。
一个理想的范式中,通用大模型以'百科全书式'的通用能力安身,垂直大模型以某一领域的专家立命,两者融合共同构筑枝繁叶茂的大模型生态。然而,随着 AGI 时代的到来,通用大模型完全能够覆盖各种垂直模型的业务场景,垂直模型存在的必要性便被质疑。
一位生物医学工程博士在社交媒体撰文指出,目前一个很尴尬的事情:许多垂类大模型在他垂直领域里能力似乎没有超过通用大模型。所谓垂类大模型,感觉就是用小部分已经用过的文本数据做复读机一样的训练,用通用领域的性能下降换专业领域的 sota。
判断一个大模型够不够聪明,很重要的一点就是它能不能解决复杂问题。玄彬在过去一年多测试了许多医疗大模型,悲哀地发现,有时候医疗大模型宣称'更懂医疗',其实只是把医疗领域的俗称与全称对应一下。'比如甲减,你不翻译成甲状腺功能性减退,通用大模型就听不懂了,而一些垂直模型所做的事情就是把这些俗称对应一下。'


