
2026 年,开源大语言模型的竞争早已脱离了'堆参数量、刷榜单'的粗放式增长阶段。随着 Agentic AI、本地部署、企业级私有化应用的需求全面爆发,行业的核心痛点已经发生了根本转变:开发者与企业不再需要一个'只有精度好看,却跑不起、用不起、延迟崩'的纸面 SOTA 模型,而是需要一个精度对标同级旗舰、推理吞吐拉满、延迟可控、硬件友好、能真正落地到生产级场景的实用型模型。
就在这样的行业背景下,Nvidia 推出了全新的开源权重大模型 Nemotron 3 Super (120B-A12B),交出了一份堪称完美的答卷。它在主流基准测试中精度完全对标同级旗舰 Qwen3.5 122B 与 GPT-OSS 120B,却实现了 NVFP4 精度下较 GPT-OSS 2.2 倍、bf16 精度下较 Qwen3.5 2 倍的吞吐提升,同时通过架构级创新大幅降低了解码延迟与推理成本。
它并非传统 Transformer 架构的简单堆料,而是一套融合了 Mamba-2 状态空间模型、分组查询注意力(GQA)、创新 Latent MoE 稀疏专家架构、多 Token 预测(MTP)的混合设计体系,从底层彻底解决了传统 Transformer 架构长上下文效率低、MoE 模型推理成本爆炸、自回归解码延迟高的三大核心痛点。对于正在爆发的 Agentic AI 应用(如本地运行的 OpenClaw 自主智能体),它更是堪称当前最具性价比的开源底座选择。
一、行业痛点:传统 LLM 架构的三重瓶颈,困住了 Agent 应用的落地
在拆解 Nemotron 3 Super 的架构之前,我们必须先搞清楚:为什么传统的 Transformer 架构与常规 MoE 设计,已经无法满足 2026 年的生产级需求,尤其是 Agentic AI 场景的核心诉求?
当前主流开源大模型普遍面临三大无法兼顾的瓶颈:
- 长上下文效率瓶颈:纯 Transformer 架构的自注意力机制,计算与内存复杂度随序列长度呈平方级增长。当上下文窗口拉长到 32K、64K 甚至更长时,推理吞吐会断崖式下跌,KV 缓存占用会彻底吃掉硬件显存。而 Agent 应用恰恰需要处理长周期任务规划、多轮对话上下文、海量文档与工具返回信息,传统架构根本无法支撑流畅的长上下文运行。
- MoE 缩放成本瓶颈:常规混合专家模型(MoE)通过稀疏激活实现了'总参数量大、激活参数量小'的设计,解决了稠密模型的训练成本问题,但推理阶段的瓶颈并未解决。传统 MoE 在全隐藏层维度完成专家路由与计算,带来了极高的内存带宽占用与节点间通信开销,最终导致推理成本并没有随稀疏激活成比例下降,大规模部署依然昂贵。
- 自回归解码延迟瓶颈:传统大模型采用逐 Token 自回归解码,每生成一个 Token 都需要完成一次完整的前向传播,哪怕硬件算力有富余,也无法突破串行解码的延迟上限。而 Agent 应用需要实时人机交互、多步工具调用的流式响应,高延迟会直接毁掉用户体验,这也是本地部署 LLM 的核心痛点之一。
正是这三大瓶颈,让绝大多数开源旗舰模型,最终只能停留在'榜单跑分'阶段,无法真正落地到高并发、长上下文、低延迟要求的生产级 Agent 场景。而 Nemotron 3 Super 的核心创新,就是从架构底层同时针对这三大痛点,给出了全链路的优化解决方案。
二、核心架构全拆解:混合设计的集大成者,从底层重构效率平衡
Nemotron 3 Super 的核心定位,是1200 亿总参数量、单 Token 仅 120 亿激活参数的混合 Mamba-Attention-MoE 架构,它完全跳出了标准 Transformer 的设计范式,延续了前代 Nemotron 3 Nano 的混合设计思路,并完成了架构级的核心创新,最终实现了精度与效率的双向突破。
整个模型采用 88 层的混合堆叠设计,其中包含 40 层 Mamba-2 状态空间层、40 层 Latent MoE 稀疏专家层、8 层分组查询注意力(GQA)层,同时在输出端新增了多 Token 预测(MTP)模块,每一个模块都精准针对传统架构的痛点设计。
1. Mamba-2 层:长上下文吞吐的核心底座,线性复杂度碾压自注意力
Mamba-2 状态空间模型,是 Nemotron 3 Super 实现长上下文高效推理的核心,也是整个混合架构的基础层。和传统 Transformer 的自注意力机制不同,Mamba-2 基于结构化状态空间模型(SSM),计算与内存复杂度随序列长度呈线性增长,彻底解决了自注意力平方级复杂度的长上下文瓶颈。
在 Nemotron 3 Super 的架构中,40 层 Mamba-2 承担了绝大多数的序列建模与上下文处理工作:它可以高效处理超长序列的时序依赖,无需存储庞大的 KV 缓存,在长上下文场景下的吞吐与显存占用,相比纯 Transformer 架构有数量级的优势。


