腾讯混元开源 HPC-Ops，大模型推理性能提升 30%

腾讯混元团队开源 HPC-Ops 推理优化框架。实测显示，混元大模型 QPM 提升 30%，DeepSeek 模型提升 17%。核心优化包括自主研发的 Attention 算子（快于 FlashAttention）、GroupGEMM 计算引擎（快于 DeepGEMM）及 FusedMoE 算子（快于 TensorRT-LLM）。该方案支持国产芯片，旨在降低服务器成本并缩短推理延迟，打破技术垄断。

PgDevote发布于 2026/3/29更新于 2026/5/2926 浏览

腾讯混元开源 HPC-Ops，大模型推理性能提升 30%

腾讯混元团队宣布将推理优化技术 HPC-Ops 全面开源，实测数据显示大模型推理速度显著提升。不同于实验室环境下的极限数据，此次公开的数据来自真实部署场景，覆盖不同类型大模型。

一、实测数据验证

HPC-Ops 的性能提升基于实际部署场景：

混元大模型：QPM 提升 30%，推理延迟大幅降低，日常问答、长文本生成等场景用户等待时间显著缩短；
DeepSeek 模型：适配后 QPM 提升 17%，即便面对复杂编程、逻辑推理等重负载任务，也能保持流畅响应；
核心优势：提速的同时不损失模型精度，避免'为提速而牺牲回答质量'。

二、核心优化算子

HPC-Ops 实现跨越式提速的核心在于三个自主研发的算子，对每个算子进行极致打磨：

（一）Attention 算子

Attention 模块是大模型推理的核心瓶颈。腾讯 HPC-Ops 的 Attention 算子针对国产芯片和英伟达芯片做了双适配优化：

性能表现：处理速度较 FlashAttention 有显著提升，能更高效地处理大模型的注意力计算；
核心优化：充分利用芯片的张量核心算力，避免算力浪费。

（二）GroupGEMM 计算引擎

GroupGEMM 负责处理海量矩阵运算，腾讯对其进行了重构式优化：

速度优势：比行业主流的 DeepGEMM 计算引擎快 1.88 倍，矩阵运算效率大幅提升，尤其适配大参数量模型；
效果：同样的能耗，能爆发出更强的算力，让大模型推理更有劲、更快。

（三）FusedMoE 算子

针对混合专家（MoE）模型，腾讯专门研发了 FusedMoE 算子：

性能表现：性能较英伟达 TensorRT-LLM 方案提升 1.49 倍；
核心价值：让 MoE 大模型的推理速度大幅提升，降低部署成本。

算子/引擎	HPC-Ops 方案	市面主流方案	性能提升幅度
Attention 算子	腾讯自主研发	FlashAttention	处理速度显著提升
GroupGEMM 计算引擎	腾讯自主研发	DeepGEMM	快 1.88 倍
FusedMoE 算子	腾讯自主研发	TensorRT-LLM	快 1.49 倍

三、技术价值与意义

（一）对企业：降低成本

对于部署大模型的企业而言，算力成本是最大的开支之一。HPC-Ops 的开源能直接帮企业节省服务器成本，无需新增硬件，仅靠软件优化就能提升效率。

（二）对用户：体验优化

普通用户可享受到更快的 AI 服务，不用升级手机、电脑配置，就能感受到更流畅的响应。

（三）对行业：自主可控

此前，大模型推理优化技术长期被特定生态影响。腾讯 HPC-Ops 的开源，不仅实现了国产技术优化，更给国产芯片提供了加速支持，推动国产 AI 全产业链自主可控。

四、未来规划

腾讯混元团队公布了后续的两大研发方向：

突破长文本瓶颈：研发稀疏 Attention 技术，解决大模型长文本推理效率低、内存占用高的痛点；
优化量化技术：开发 4bit/8bit 混合精度量化方案，在进一步提升推理速度的同时，最大限度保留模型精度。

五、总结

腾讯混元 HPC-Ops 的开源，用实测数据证明国产推理优化技术已具备竞争力。通过三个超级算子的极致打磨和全行业免费开源，推动大模型行业从'拼规模'向'拼效率'转型。

腾讯混元开源 HPC-Ops，大模型推理性能提升 30%

一、实测数据验证

HPC-Ops 的性能提升基于实际部署场景：

混元大模型：QPM 提升 30%，推理延迟大幅降低，日常问答、长文本生成等场景用户等待时间显著缩短；
DeepSeek 模型：适配后 QPM 提升 17%，即便面对复杂编程、逻辑推理等重负载任务，也能保持流畅响应；
核心优势：提速的同时不损失模型精度，避免'为提速而牺牲回答质量'。

二、核心优化算子

HPC-Ops 实现跨越式提速的核心在于三个自主研发的算子，对每个算子进行极致打磨：

（一）Attention 算子

Attention 模块是大模型推理的核心瓶颈。腾讯 HPC-Ops 的 Attention 算子针对国产芯片和英伟达芯片做了双适配优化：

性能表现：处理速度较 FlashAttention 有显著提升，能更高效地处理大模型的注意力计算；
核心优化：充分利用芯片的张量核心算力，避免算力浪费。

（二）GroupGEMM 计算引擎

GroupGEMM 负责处理海量矩阵运算，腾讯对其进行了重构式优化：

速度优势：比行业主流的 DeepGEMM 计算引擎快 1.88 倍，矩阵运算效率大幅提升，尤其适配大参数量模型；
效果：同样的能耗，能爆发出更强的算力，让大模型推理更有劲、更快。

（三）FusedMoE 算子

针对混合专家（MoE）模型，腾讯专门研发了 FusedMoE 算子：

性能表现：性能较英伟达 TensorRT-LLM 方案提升 1.49 倍；
核心价值：让 MoE 大模型的推理速度大幅提升，降低部署成本。

算子/引擎	HPC-Ops 方案	市面主流方案	性能提升幅度
Attention 算子	腾讯自主研发	FlashAttention	处理速度显著提升
GroupGEMM 计算引擎	腾讯自主研发	DeepGEMM	快 1.88 倍
FusedMoE 算子	腾讯自主研发	TensorRT-LLM	快 1.49 倍

三、技术价值与意义

（一）对企业：降低成本

对于部署大模型的企业而言，算力成本是最大的开支之一。HPC-Ops 的开源能直接帮企业节省服务器成本，无需新增硬件，仅靠软件优化就能提升效率。

（二）对用户：体验优化

普通用户可享受到更快的 AI 服务，不用升级手机、电脑配置，就能感受到更流畅的响应。

（三）对行业：自主可控

四、未来规划

腾讯混元团队公布了后续的两大研发方向：

突破长文本瓶颈：研发稀疏 Attention 技术，解决大模型长文本推理效率低、内存占用高的痛点；
优化量化技术：开发 4bit/8bit 混合精度量化方案，在进一步提升推理速度的同时，最大限度保留模型精度。

腾讯混元开源 HPC-Ops，大模型推理性能提升 30%

腾讯混元开源 HPC-Ops，大模型推理性能提升 30%

一、实测数据验证

二、核心优化算子

（一）Attention 算子

（二）GroupGEMM 计算引擎

（三）FusedMoE 算子

三、技术价值与意义

（一）对企业：降低成本

（二）对用户：体验优化

（三）对行业：自主可控

四、未来规划

五、总结

腾讯混元开源 HPC-Ops，大模型推理性能提升 30%

腾讯混元开源 HPC-Ops，大模型推理性能提升 30%

一、实测数据验证

二、核心优化算子

（一）Attention 算子

（二）GroupGEMM 计算引擎

（三）FusedMoE 算子

三、技术价值与意义

（一）对企业：降低成本

（二）对用户：体验优化

（三）对行业：自主可控

四、未来规划

五、总结

更多推荐文章

相关免费在线工具

更多推荐文章

相关免费在线工具

腾讯混元开源 HPC-Ops，大模型推理性能提升 30%

腾讯混元开源 HPC-Ops，大模型推理性能提升 30%

一、实测数据验证

二、核心优化算子

（一）Attention 算子

（二）GroupGEMM 计算引擎

（三）FusedMoE 算子

三、技术价值与意义

（一）对企业：降低成本

（二）对用户：体验优化

（三）对行业：自主可控

四、未来规划

五、总结

腾讯混元开源 HPC-Ops，大模型推理性能提升 30%

腾讯混元开源 HPC-Ops，大模型推理性能提升 30%

一、实测数据验证

二、核心优化算子

（一）Attention 算子

（二）GroupGEMM 计算引擎

（三）FusedMoE 算子

三、技术价值与意义

（一）对企业：降低成本

（二）对用户：体验优化

（三）对行业：自主可控

四、未来规划

五、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具