腾讯混元开源 HPC-Ops,大模型推理性能提升 30%
腾讯混元团队宣布将推理优化技术 HPC-Ops 全面开源,实测数据显示大模型推理速度显著提升。不同于实验室环境下的极限数据,此次公开的数据来自真实部署场景,覆盖不同类型大模型。
一、实测数据验证
HPC-Ops 的性能提升基于实际部署场景:
- 混元大模型:QPM 提升 30%,推理延迟大幅降低,日常问答、长文本生成等场景用户等待时间显著缩短;
- DeepSeek 模型:适配后 QPM 提升 17%,即便面对复杂编程、逻辑推理等重负载任务,也能保持流畅响应;
- 核心优势:提速的同时不损失模型精度,避免'为提速而牺牲回答质量'。
二、核心优化算子
HPC-Ops 实现跨越式提速的核心在于三个自主研发的算子,对每个算子进行极致打磨:
(一)Attention 算子
Attention 模块是大模型推理的核心瓶颈。腾讯 HPC-Ops 的 Attention 算子针对国产芯片和英伟达芯片做了双适配优化:
- 性能表现:处理速度较 FlashAttention 有显著提升,能更高效地处理大模型的注意力计算;
- 核心优化:充分利用芯片的张量核心算力,避免算力浪费。
(二)GroupGEMM 计算引擎
GroupGEMM 负责处理海量矩阵运算,腾讯对其进行了重构式优化:
- 速度优势:比行业主流的 DeepGEMM 计算引擎快 1.88 倍,矩阵运算效率大幅提升,尤其适配大参数量模型;
- 效果:同样的能耗,能爆发出更强的算力,让大模型推理更有劲、更快。
(三)FusedMoE 算子
针对混合专家(MoE)模型,腾讯专门研发了 FusedMoE 算子:
- 性能表现:性能较英伟达 TensorRT-LLM 方案提升 1.49 倍;
- 核心价值:让 MoE 大模型的推理速度大幅提升,降低部署成本。
| 算子/引擎 | HPC-Ops 方案 | 市面主流方案 | 性能提升幅度 |
|---|---|---|---|
| Attention 算子 | 腾讯自主研发 | FlashAttention | 处理速度显著提升 |
| GroupGEMM 计算引擎 | 腾讯自主研发 | DeepGEMM | 快 1.88 倍 |
| FusedMoE 算子 | 腾讯自主研发 | TensorRT-LLM | 快 1.49 倍 |
三、技术价值与意义
(一)对企业:降低成本
对于部署大模型的企业而言,算力成本是最大的开支之一。HPC-Ops 的开源能直接帮企业节省服务器成本,无需新增硬件,仅靠软件优化就能提升效率。
(二)对用户:体验优化
普通用户可享受到更快的 AI 服务,不用升级手机、电脑配置,就能感受到更流畅的响应。
(三)对行业:自主可控
此前,大模型推理优化技术长期被特定生态影响。腾讯 HPC-Ops 的开源,不仅实现了国产技术优化,更给国产芯片提供了加速支持,推动国产 AI 全产业链自主可控。
四、未来规划
腾讯混元团队公布了后续的两大研发方向:
- 突破长文本瓶颈:研发稀疏 Attention 技术,解决大模型长文本推理效率低、内存占用高的痛点;
- 优化量化技术:开发 4bit/8bit 混合精度量化方案,在进一步提升推理速度的同时,最大限度保留模型精度。
五、总结
腾讯混元 HPC-Ops 的开源,用实测数据证明国产推理优化技术已具备竞争力。通过三个超级算子的极致打磨和全行业免费开源,推动大模型行业从'拼规模'向'拼效率'转型。


