医疗垂类大模型应走出“应试”误区，聚焦真实场景落地

医疗垂类大模型面临推理能力弱、商业化路径不清等质疑。专家观点指出，通用大模型在特定任务上表现优异，垂直模型需通过私有化部署与领域知识融合实现降本增效。核心在于寻找强监管、高频刚需场景，如病历质控与医保控费，而非单纯追求规模。未来竞争将转向生态构建与数据资产积累。技术层面，RAG 与 MoE 架构结合、私有化部署及安全合规是落地关键。

flc发布于 2025/2/7更新于 2026/7/2032 浏览

医疗垂类大模型应走出'应试'误区，聚焦真实场景落地

'现阶段，许多医疗垂类大模型就是伪命题，推理能力不行。' 一位观望大模型已久的医疗从业者玄彬（化名）发出了极为尖锐的批评。

在他看来，目前人工智能是靠 scaling law 涌现的，模型性能随着模型规模、数据规模和算力规模等因素的增大而提升。只要还是 Transformer，就不可能有垂类的机会。

过去两年，为了追上生成式 AI 的热潮，不少企业将开源大模型稍加'改造'后就冠以自有产品名，套牌、过度宣传屡见不鲜，铺天盖地的榜单，各种评测熙熙攘攘。'大模型用不用不重要，先要拥有大模型。'思潮下，历经井喷式的发展，也造就了医疗大模型圈里鱼龙混杂、良莠不齐。

当通用大模型掀起了低价肉搏战，从 5 元到 1 元，不断击穿大模型低价，巨头们降价正酣。医疗大模型虽在病历书写、诊断等细分领域展示出巨大潜力，但商业化路径仍不清晰，行业仍在苦苦寻觅杀手级场景。

与此同时，技术不断迭代，随着 OpenAI 和 Mistral AI 的助力，专家混合（MoE）一时间炙手可热。这种混合模型，由多个子模型（即专家）组成，每个子模型都是一个局部模型，专门处理输入空间的一个子集。简而言之，它使用一个门控网络来决定每个数据应该被哪个模型去训练，从而减轻不同类型样本之间的干扰。

天才黑客乔治・霍兹曾爆料，GPT-4 其实是一个混合模型，采用了由 8 个专家模型组成的集成系统，每个专家模型都有 2200 亿个参数。

2023 年底，微软首席科学家埃里克・霍尔维茨曾发布一项调研报告《The Power of Prompting》，他们研究发现，在相同的基准上，利用提示词工程就能让 GPT-4 的性能明显优于专门针对医疗应用进行微调的领先模型。

'Medprompt 研究表明，更深入地探索将通用模型转化为专业模型的提示可能性，并将这些模型的优势扩展到新领域和新应用，是非常有价值的。'埃里克·霍尔维茨欣喜写道。

以上种种，使得医疗垂类大模型的质疑声越来越响：医疗大模型是伪命题吗？我们可以期待怎样的医疗大模型？

01 衡量标准：忍受 VS 享受，要求 VS 需要

在和缓医疗 CEO 李宇看来，判断大模型的应用是否成立，主要在于两个点：一是对于用户来说，大模型是忍受，还是享受；二是对于使用者而言，是要求还是需要。

'现在整个医疗行业都在寻找杀手级应用，找场景，其实很重要一点就在于找到强要求、强监管下的应用。'他阐述道，邮件和 Office 这种才叫杀手应用，发生在每天应用的工具中，具备非常高的便捷性。

纵览目前的医疗大模型，多聚焦患者问诊、医生助手、药物研发、健康科普等领域。李宇最看好的则是病历质控系统以及 DRG/DIP 下，监管医院的临床诊疗行为和收费合理性的医保控费应用。

'对于医院至关紧要的，才会有大规模商业机会。'李宇认为，文字模型的杀手级应用应该还是在病历相关的场景上，比如 DRG 要求的病案首页等医生极易出错的地方，抓住了医院端需求，并打通了业务场景，落地了才能有未来。

当大模型进入医疗领域之后，更多的资源应该探索如何寻找高频且刚需的场景，如此才能诞生下一个超级应用的可能性。当享受与需要二者兼备，医疗大模型才能真正成立。

复旦大学中国研究院副研究员刘典曾在线下论坛中一针见血指出，行业的核心是数据和原有的工作流。只要大模型能很好解决这两件事，且成本不高于原有方案，就不能说是伪命题。

换言之，只有在医疗领域真正实现'降本增效'，积累真实世界数据，才能称得上医疗大模型。

要知道，大模型想要真正脱颖而出，几方面能力至关重要：

获取最新知识能力：医学知识是不断更迭的，需要动态获取最新的医学知识。
理解多模态数据：医学影像、X 光片，心电图等。
高级推理能力：大模型不能永远只做'应试教育的高材生'，真正应用于医疗场景中，非常依赖模型的推理能力，毕竟好的医生都是推理专家。
长文本能力：处理复杂的病历记录和文献。

百模大战尽管听起来热闹，但是真正具备模型能力的仍是少数，毕竟大模型推理这类访存密集型任务需要真金白银的投入。财通证券曾经测算，支撑 GPT-3.5 推理任务的 A100 数量或至少在 5 万张左右。

'我觉得医疗垂直大模型不成立的原因就是它的推理能力会很弱，你不会希望一个熟读各类医学百科、疾病诊疗指南书籍的学生来当你的医生。'玄彬坚定说道，虽然它是个专业的学生，但作为医疗场景应用，还是有些危险。

02 大模型的终局——通用还是垂直？

事实上，通用大模型与垂直大模型之争从 2024 年初便备受关注。

一个理想的范式中，通用大模型以'百科全书式'的通用能力安身，垂直大模型以某一领域的专家立命，两者融合共同构筑枝繁叶茂的大模型生态。然而，随着 AGI 时代的到来，通用大模型完全能够覆盖各种垂直模型的业务场景，垂直模型存在的必要性便被质疑。

一位生物医学工程博士在社交媒体撰文指出，目前一个很尴尬的事情：许多垂类大模型在他垂直领域里能力似乎没有超过通用大模型。所谓垂类大模型，感觉就是用小部分已经用过的文本数据做复读机一样的训练，用通用领域的性能下降换专业领域的 sota。

判断一个大模型够不够聪明，很重要的一点就是它能不能解决复杂问题。玄彬在过去一年多测试了许多医疗大模型，悲哀地发现，有时候医疗大模型宣称'更懂医疗'，其实只是把医疗领域的俗称与全称对应一下。'比如甲减，你不翻译成甲状腺功能性减退，通用大模型就听不懂了，而一些垂直模型所做的事情就是把这些俗称对应一下。'

医疗垂类大模型应走出“应试”误区，聚焦真实场景落地

医疗垂类大模型应走出'应试'误区，聚焦真实场景落地

01 衡量标准：忍受 VS 享受，要求 VS 需要

02 大模型的终局——通用还是垂直？

更多推荐文章

相关免费在线工具

03 破局：先选择应用场景，再定义应用

04 技术架构演进与实施路径

检索增强生成（RAG）的深度应用

专家混合（MoE）与推理效率

私有化部署与安全合规

05 结语

更多推荐文章

相关免费在线工具

医疗垂类大模型应走出“应试”误区，聚焦真实场景落地

医疗垂类大模型应走出'应试'误区，聚焦真实场景落地

01 衡量标准：忍受 VS 享受，要求 VS 需要

02 大模型的终局——通用还是垂直？

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

03 破局：先选择应用场景，再定义应用

04 技术架构演进与实施路径

检索增强生成（RAG）的深度应用

专家混合（MoE）与推理效率

私有化部署与安全合规

05 结语

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具