跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
编程语言AI算法

腾讯混元开源 HPC-Ops,大模型推理性能提升 30%

腾讯混元团队开源 HPC-Ops 推理优化框架。实测显示,混元大模型 QPM 提升 30%,DeepSeek 模型提升 17%。核心优化包括自主研发的 Attention 算子(快于 FlashAttention)、GroupGEMM 计算引擎(快于 DeepGEMM)及 FusedMoE 算子(快于 TensorRT-LLM)。该方案支持国产芯片,旨在降低服务器成本并缩短推理延迟,打破技术垄断。

PgDevote发布于 2026/3/29更新于 2026/5/2926 浏览
腾讯混元开源 HPC-Ops,大模型推理性能提升 30%

腾讯混元开源 HPC-Ops,大模型推理性能提升 30%

腾讯混元团队宣布将推理优化技术 HPC-Ops 全面开源,实测数据显示大模型推理速度显著提升。不同于实验室环境下的极限数据,此次公开的数据来自真实部署场景,覆盖不同类型大模型。

一、实测数据验证

HPC-Ops 的性能提升基于实际部署场景:

  • 混元大模型:QPM 提升 30%,推理延迟大幅降低,日常问答、长文本生成等场景用户等待时间显著缩短;
  • DeepSeek 模型:适配后 QPM 提升 17%,即便面对复杂编程、逻辑推理等重负载任务,也能保持流畅响应;
  • 核心优势:提速的同时不损失模型精度,避免'为提速而牺牲回答质量'。

二、核心优化算子

HPC-Ops 实现跨越式提速的核心在于三个自主研发的算子,对每个算子进行极致打磨:

(一)Attention 算子

Attention 模块是大模型推理的核心瓶颈。腾讯 HPC-Ops 的 Attention 算子针对国产芯片和英伟达芯片做了双适配优化:

  • 性能表现:处理速度较 FlashAttention 有显著提升,能更高效地处理大模型的注意力计算;
  • 核心优化:充分利用芯片的张量核心算力,避免算力浪费。
(二)GroupGEMM 计算引擎

GroupGEMM 负责处理海量矩阵运算,腾讯对其进行了重构式优化:

  • 速度优势:比行业主流的 DeepGEMM 计算引擎快 1.88 倍,矩阵运算效率大幅提升,尤其适配大参数量模型;
  • 效果:同样的能耗,能爆发出更强的算力,让大模型推理更有劲、更快。
(三)FusedMoE 算子

针对混合专家(MoE)模型,腾讯专门研发了 FusedMoE 算子:

  • 性能表现:性能较英伟达 TensorRT-LLM 方案提升 1.49 倍;
  • 核心价值:让 MoE 大模型的推理速度大幅提升,降低部署成本。
算子/引擎HPC-Ops 方案市面主流方案性能提升幅度
Attention 算子腾讯自主研发FlashAttention处理速度显著提升
GroupGEMM 计算引擎腾讯自主研发DeepGEMM快 1.88 倍
FusedMoE 算子腾讯自主研发TensorRT-LLM快 1.49 倍

三、技术价值与意义

(一)对企业:降低成本

对于部署大模型的企业而言,算力成本是最大的开支之一。HPC-Ops 的开源能直接帮企业节省服务器成本,无需新增硬件,仅靠软件优化就能提升效率。

(二)对用户:体验优化

普通用户可享受到更快的 AI 服务,不用升级手机、电脑配置,就能感受到更流畅的响应。

(三)对行业:自主可控

此前,大模型推理优化技术长期被特定生态影响。腾讯 HPC-Ops 的开源,不仅实现了国产技术优化,更给国产芯片提供了加速支持,推动国产 AI 全产业链自主可控。

四、未来规划

腾讯混元团队公布了后续的两大研发方向:

  1. 突破长文本瓶颈:研发稀疏 Attention 技术,解决大模型长文本推理效率低、内存占用高的痛点;
  2. 优化量化技术:开发 4bit/8bit 混合精度量化方案,在进一步提升推理速度的同时,最大限度保留模型精度。

五、总结

腾讯混元 HPC-Ops 的开源,用实测数据证明国产推理优化技术已具备竞争力。通过三个超级算子的极致打磨和全行业免费开源,推动大模型行业从'拼规模'向'拼效率'转型。

目录

  1. 腾讯混元开源 HPC-Ops,大模型推理性能提升 30%
  2. 一、实测数据验证
  3. 二、核心优化算子
  4. (一)Attention 算子
  5. (二)GroupGEMM 计算引擎
  6. (三)FusedMoE 算子
  7. 三、技术价值与意义
  8. (一)对企业:降低成本
  9. (二)对用户:体验优化
  10. (三)对行业:自主可控
  11. 四、未来规划
  12. 五、总结
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • Python 实现 JSON 转 CSV:基础与嵌套数据处理
  • Ng-Zorro DatePicker 禁用周末及部分时间配置
  • Windows Git 安装全流程与配置指南
  • DeepSeek 高薪招聘 AI 人才,实习生月薪过万引发行业关注
  • React 集成 Microi 吾码低代码平台开发教程
  • 数字签名技术详解:从原理到实践
  • SpringBoot 配置文件详解:Properties 与 YML 格式对比
  • HarmonyOS6 RcImage 组件核心架构与状态管理机制
  • Java 抽象类详解:概念、特性与代码示例
  • 前缀和算法详解:高效解决区间求和问题
  • Eino ADK 体系篇:ChatModelAgent 核心机制与实战解析
  • ChatGPT 记忆功能揭秘:使用与管理指南
  • Python 开发中应淘汰的旧模块与新替代方案指南
  • WebStorm 安装与配置指南
  • 基于 LLaMA Factory 打造个性化内容生成模型
  • 投资策略规划最优决策分析
  • 前端核心面试题解析:闭包、事件循环与 Vue 原理
  • 从 0 到 1 打造 RISC-V 智能家居中控:硬件 + 固件 + 通信全链路实战
  • Python+Agent 入门实战:搭建可复用 AI 智能体
  • 6 款免费 AI 写作软件测评及网文创作辅助指南

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • Base64 字符串编码/解码

    将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online