AI 诊疗新进展:大模型在医疗领域的现状与 CPU 部署实践
当大型语言模型(LLM)踏入医疗行业,试图与人类医生一较高下时,其实际表现究竟如何?
就在最近,医学顶级期刊《BMJ》发表了一项研究,给出了一个引人注目的结论:在遵循公认的临床抑郁症治疗标准方面,先进的大模型可能比初级医生表现更强。
从研究结果来看,大语言模型在处理轻度和重度抑郁症的治疗建议上,已经达到了公认的专业治疗标准。不仅如此,它们还不会被患者的外在因素所影响,包括性别、社会阶层等,这在一定程度上比人类初级医生更加客观公正。
这是否意味着类 LLM 选手现在可以'持证上岗'了呢?答案是否定的。考虑到抑郁症治疗的持续性和患者病情的多样性,这项研究认为,真正的治疗过程仍然需要人类医生来进行最终决策和关怀。不过研究同样指出,LLM 对于现阶段医疗可以起到辅助决策的显著帮助:有可能加强初级卫生保健的决策,提高精神卫生服务的质量和公正性。
LLM 已然深扎医疗领域
一直以来,医疗行业都被视为 AI 落地的重要领域。在深度学习浪潮刚刚兴起之时,深度学习三巨头之一 Geoffrey Hinton 就曾预言:5 年内 AI 可以取代放射科医生。尽管这个表达有些激进,但它揭示了一个事实,至少在科研层面,AI 和医疗的结合是非常被看好的。
在过去一段时间以来,AI 医疗场景不断开拓,比如利用计算机视觉(CV)算法识别病灶、检测心电图异常等。科技巨头们都紧跟趋势,如微软、谷歌、IBM 等都在持续投入资金,推进 AI 医疗落地。
尤其在 ChatGPT 趋势到来以后,LLM 更强的学习能力、更好的迁移能力以及更深的理解能力,都为 AI 医疗落地打开了新局面。而且这会是一个很确定的趋势,因为技术、应用落地和行业发展都准备好了。
技术基础:百模大战与行业模型
首先技术方面,今年是大模型爆发的一年,目前国内已经形成'百模大战'格局。诸多大模型厂商都主打 To B 路线,正在加速推动大模型在各个行业的应用。还有一些厂商直接推出面向医疗的行业大模型,比如谷歌推出的 Med-PaLM 2 就已经在诊所实测。
所以对于医疗领域而言,当下是不缺'模'的。大模型和医疗领域也天生非常契合。在常见的问诊、病历生成、患者病史分析等场景,都需要医生基于历史信息进行整合总结、分析判断,这正是大模型的长项。
比如利用大模型的总结摘要能力,可以快速对多类数据进行总结并形成摘要,帮医生完成繁琐、重复性高的工作,提升效率。并且实际落地上,只需以基座大模型为底,应用专业医疗数据训练,就能得到一个强大的医疗大模型,这能从根本上加速 AI 医疗落地。还能在一个系统中集成多个子模型,即可快速覆盖更多场景。
行业发展:数字化与智能化融合
再来看行业发展方面,以国内情况为例,数字化医疗、AI 医疗逐渐发展为一个独立赛道,玩家们利用数据分析、自然语言处理(NLP)、结构化数据等技术,已经成功将 AI 引入临床诊断决策、病例数据管理等。
如惠每科技开发的面向医院的核心应用 Dr.Mayson。简单理解,这是一个能优化医院看诊、决策、预警、管理等方面的智能应用,核心目标就是让医院数字化系统运行更加丝滑流畅,提高医生诊疗效率。
它主要融入了 PDCA 过程管理和 CDSS(临床决策支持系统)。利用机器学习、深度学习、大数据挖掘等技术,可以智能识别分析病历文书、LIS/RIS 报告等患者完整病历数据;为医院构建专门的医学知识库;给医生、医技、护士、管理方提供实时智能参考与建议。
在惠每科技最新发布的 CDSS 3.0 架构中,新一代 AI 大数据处理平台已集成了医疗大模型,并已经在某合作医院的病历生成等场景中获得了医生的认可。
综上,医疗大模型应用落地路径已经比较明确。但是落地的过程却没有想象中的那般容易。
医疗大模型落地挑战与解决方案
医疗大模型落地目前遇到的两大核心问题,都非常具有原生性:
- 为保证患者数据安全,医院数据仅能内网使用:医疗数据涉及隐私,不能随意上传至公有云,这意味着大模型需要进行私有化部署。
- 当前 GPU 算力紧张,医院很难负担如此高昂的采购成本:GPU 价格昂贵且供应紧张,对于许多医疗机构来说,大规模采购 GPU 集群并不现实。
这意味着,医疗大模型需要进行私有化部署,且需要寻找一条能够针对于提升大模型算力的'性价比'道路。所以,AI 加速成为了近来业界备受关注的领域。它直接关乎大模型落地的效率和成本,行业内各大厂商的加速方案也都受到热捧。
量化技术:降低精度换取性能
比如刚刚提到的惠每科技便携手英特尔,在基于第四代英特尔® 至强® 可扩展处理器(Intel Xeon Scalable Processors)的基础设施上,打造了量化和非量化两种大模型推理加速方案。
如何实现?先来看量化部分,也就是通过降低模型精度来实现加速。
以 FP32 量化到 INT8 为例,它能让 GPU 或 CPU 适应更快、更低成本的 8 位张量来计算卷积和矩阵乘法,可有效提高计算吞吐量。还能减少模型数据搬运所需的时间和资源,这是数据从内存移动到计算单元的必然消耗,精度从 32 位降低到 8 位,能实现 4 倍减少量。
同时量化也能减少内存的使用,让模型需要更少的存储空间、参数更小、缓存利用率更高。这对于显存或内存受限的边缘设备尤为重要。
具体实现方案上,惠每科技引入了英特尔开发和开源的 BigDL-LLM 大语言模型加速库。BigDL-LLM 提供对各种低精度数据格式的支持与优化,同时配合不同型号和代际的英特尔处理器内置指令集(如英特尔® AVX-512_VNNI、英特尔® AMX 等)在大模型应用中可以实现较优推理加速。
使用方面,此方案提供了便捷命令和编程接口两种方法,能方便预览量化后模型性能是否符合预期;另外在性能达标的情况下,凭借 BigDL-LLM 提供的 HuggingFace API/Langchain API,用户可以轻松将优化性能整合到部署推理服务中去。
OpenVINO 非量化加速方案
对于非量化技术路径,英特尔也能提供键值(KV)缓存、算子融合的 OpenVINO™ 加速方案。
KV 缓存用于通过键值对的方式存储数据,能加速和优化数据访问。算子融合是将神经网络中多个连续运算符融合成一个运算符,从而减少内存访问、提高计算效率。
在惠每科技主要使用的开源基座大模型 ChatGLM 上,基于英特尔® OpenVINO™ 工具套件打造的非量化方案能利用零拷贝(Zero-Copy)视图传递预分配的 KV 所需的内存副本空间,避免数据的多次拷贝,实现 KV 缓存加速。
也能引入第四代英特尔® 至强® 可扩展处理器内置的英特尔® AMX 指令集,帮助 ChatGLM 等医疗大模型加速 BF16/INT8 计算,实现算子融合,在保证精度的前提下提升运算效率、加速推理。
同时 OpenVINO™ 工具套件提供了在 HuggingFace 上的 Optimum 接口,让优化效果可扩展到更多医疗大模型推理应用中。
总结来看,英特尔与惠每科技联手打造的两个大模型加速方案,成功帮助医疗机构用较低成本部署了高质量大语言模型,并且为更多准备'入局'的同行们提供了一套完整教程。
更关键的是,本次合作也让我们看到了一个事实:大模型训练推理并非唯 GPU 一种解法,CPU 也可以作为大模型在行业落地的平台。
CPU:大模型的另一种解法
或许很多人一提到大模型,刻板印象往往会是'堆 GPU'。但事实上,英特尔在通过自身的实践在证明——CPU,亦是一种解法。
例如在我们耳熟能详且经典的 OCR(光学字符识别)领域,在英特尔第四代至强® ️可扩展处理器的加持之下,响应延时指标在原有基础上足足提升达 25 倍!
再比如媒体娱乐场景中,尤其在 AMX 加速引擎加持下,英特尔能帮助个性化内容推荐速度提升达 6.3 倍;零售行业里,能将视频分析速度提升高达 2.3 倍,还有像工业缺陷检测、医疗服务也都能从容应对。
即便是在生命科学和医药等前沿探索领域,CPU 也已经成为不容忽视的存在:甚至在某些场景下的表现效果比 GPU 还要好。
而这些案例,也只是英特尔 CPU 在大模型时代表现中的一隅;更重要的应当是英特尔在过去一段时间和未来,所坚持的'走法':不仅重视硬件产品性能的提升,对于软件优化和打造生态系统同样付出大量心血,给用户提供全流程支持。
这也是为什么在今年的 Intel Innovation 2023 上,英特尔敢于喊出'AI everywhere(让 AI 无处不在)'的口号;为什么在 12 月中旬即将发布的新一代至强® 可扩展处理器、产品和加速方案,充斥着'AI'和'大模型'的味道。
总而言之,CPU 巨头英特尔,在大模型时代之下确实在开辟着与众不同的路数。至于新一代至强® 可扩展处理器和其他产品又会给大模型带来怎样的性能提高,也是值得期待一波的。
结语
随着大模型技术的成熟,其在医疗领域的应用将从辅助诊断向更深层次的决策支持演进。然而,数据隐私、算力成本和部署灵活性始终是制约落地的关键因素。通过 CPU 结合量化技术与专用加速库,医疗机构可以在保障数据安全的前提下,以更具性价比的方式部署大模型。这不仅降低了技术门槛,也为 AI 普惠医疗提供了新的思路。未来,随着硬件指令集的持续优化和软件生态的完善,CPU 将在边缘计算和私有化部署场景中扮演越来越重要的角色。