阿里开源Qwen3.5:混合线性注意力让推理速度提升19倍,这个架构选择值得深挖.md
文章目录
- 1、前言
- 2、Qwen3.5 是什么
- 3、快速上手
- 4、五大核心特性详解
- 5、性能表现:哪里强,哪里弱
- 6、架构创新:Gated Delta Networks 是什么
- 7、MoE 架构深度解析
- 8、行业意义:Agent 时代的新起点
- 9、总结
🍃作者介绍:25届双非本科网络工程专业,阿里云专家博主,深耕 AI 原理 / 应用开发 / 产品设计。前几年深耕Java技术体系,现专注把 AI 能力落地到实际产品与业务场景。
🦅个人主页:@逐梦苍穹
🐼GitHub主页:https://github.com/XZL-CODE
✈ 您的一键三连,是我创作的最大动力🌹
⚠️ 阅读说明:截至本文发布时,Qwen3.5 官方技术报告尚未公开(GitHub 标注 paper coming soon)。本文技术分析均基于官方模型卡、HuggingFace 发布博客及官方博客,部分架构细节为基于已公开信息的推断,待官方论文发布后以正式论文为准。
1、前言
2026 年 2 月 16 日,农历除夕,阿里巴巴通义千问团队选了一个极具仪式感的时间节点,悄悄将 Qwen3.5 推上了 HuggingFace。没有铺天盖地的发布会,没有提前的营销预热,就这么把一个 397B 参数的开源旗舰模型扔出来,顺手附赠 Apache 2.0 许可证——这波"春节开源礼"让全球 AI 社区在年关时分炸了锅,发布后 3 天 HuggingFace 下载量突破 10.5 万次,OpenRouter 平台单日请求量达 25 万次。
之所以说它值得认真解读,不只是因为参数量大或跑分亮眼,而是因为 Qwen3.5 在架构层面做出了一个真正不同寻常的选择:将**线性注意力机制(Gated Delta Networks)**以 3:1 的比例嵌入到 MoE 模型中,并在此基础上实现了原生多模态融合和百万 Token 上下文。这不是小幅调参,是一次系统性的架构重构。值得一提的是,截至本文撰写时(2026年2月20日),Qwen3.5 的 arXiv 技术报告尚未发布(GitHub 标注"Paper — coming soon"),本文所有技术细节均来自官方模型卡、HuggingFace 博客及官方发布博客。
2、Qwen3.5 是什么
2.1 一句话定位
Qwen3.5 是阿里巴巴通义千问团队发布的新一代原生多模态智能体基础模型,官方标题 “Towards Native Multimodal Agents” 已经说明了核心目标——不是做更强的聊天机器人,而是为 AI 智能体(Agent)时代提供一套从底层架构就经过重新设计的基础设施。
首发版本 Qwen3.5-397B-A17B 总参数 397B,每次前向传播仅激活 17B 参数(约 4.3% 的激活率),既保留了大模型的"知识储量",又把推理成本压到中等规模模型的水准。
2.2 与 Qwen3 的关键区别
| 维度 | Qwen3(2025年4月) | Qwen3.5(2026年2月) | 变化 |
|---|---|---|---|
| 注意力机制 | 标准 Softmax + GQA | Gated DeltaNet 3:1 混合 | 质变 |
| MoE 专家总数 | 128 个 | 512 个 | +300% |
| 共享专家 | 无 | 有(1个固定激活) | 新增 |
| 多模态支持 | 独立 Qwen3-VL 部署 | 原生早期融合 | 质变 |
| 支持语言数 | 82 种 | 201 种 | +145% |
| 词表大小 | ~150K | ~250K | +67% |
| 原生上下文 | 最长 128K | 262K | 2× |
| 可扩展上下文 | — | 1,010,000 tokens | 全新 |
| 32K 解码吞吐量 | 基准 1× | 8.6× | 显著 |
| 256K 解码吞吐量 | 基准 1× | 19× | 质变 |
| RL 训练规模 | 有限规模 | 百万级智能体环境 | 数量级提升 |
| 推理成本 | 基准 | 降低 60% | 显著 |
从这张表可以直观看出:Qwen3 → Qwen3.5 从注意力机制到训练范式都发生了系统性变化,绝非一次 minor update。
2.3 发布时间线
理解 Qwen3.5 的架构选择,需要先看清楚它是怎么"走过来"的:
| 日期 | 事件 |
|---|---|
| 2025年4月28日 | Qwen3 系列发布(0.6B–235B,纯语言模型,119种语言) |
| 2025年7月 | Qwen3-235B-A22B 长上下文增强版(256K) |
| 2025年9月10日 | Qwen3-Next(超稀疏 MoE + 混合注意力,Qwen3.5 的架构预演版) |
| 2025年9月22日 | Qwen3-Omni(端到端文本/图像/音频/视频多模态) |
| 2026年1月27日 | qwen3-max-2026-01-23 快照(集成思考+工具调用) |
| 2026年2月16日 | Qwen3.5-397B-A17B 开源 + qwen3.5-plus API 上线 |
| 2026年2月(进行中) | 技术报告正式版(arXiv,coming soon) |
关键节点:2025年9月的 Qwen3-Next 是整个 Qwen3.5 故事的"序章"——混合注意力的核心设计(Gated Delta Networks + 全注意力 3:1)在那时已经完成了工程可行性验证,Qwen3.5 是把它推向 397B 生产规模的正式版本。这条技术路线的"孵化期"长达 5 个月。
3、快速上手
3.1 API 调用(阿里云百炼)
Qwen3.5-Plus 已在阿里云百炼(DashScope / Model Studio)上线,完整兼容 OpenAI 格式,上下文窗口达 100 万 tokens,定价 $0.4/1M 输入 token,$2.4/1M 输出 token。
思考模式(Thinking Mode)——适合复杂推理、代码生成、深度分析:
from openai import OpenAI client = OpenAI( api_key="YOUR_DASHSCOPE_API_KEY", base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",)# 思考模式:模型先生成 <think>...</think> 推理链,再输出最终答案 response = client.chat.completions.create( model="qwen3.5-plus", messages=[{"role":"user","content":"用 Python 实现一个 LRU Cache,要求线程安全,并分析时间复杂度。"}], extra_body={"enable_thinking":True},# 开启思考模式 temperature=0.6, top_p=0.95,)# 打印思考过程ifhasattr(response.choices[0].message,'reasoning_content'):print("=== 思考过程 ===")print(response.choices[0].message.reasoning_content)print("=== 最终回答 ===")print(response.choices[0].message.content)非思考模式(Non-Thinking Mode)——适合对话、简单问答、快速响应场景:
from openai import OpenAI client = OpenAI( api_key="YOUR_DASHSCOPE_API_KEY", base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",) response = client.chat.completions.create( model="qwen3.5-plus", messages=[{"role":"system","content":"You are a helpful assistant."},{"role":"user","content":"帮我用一句话解释什么是 MoE 架构。"}], extra_body={"enable_thinking":False},# 关闭思考模式,直接输出 temperature=0.7, top_p=0.8, presence_penalty=1.5,# 非思考模式建议设置,防止重复输出)print(response.choices[0].message.content)获取 API Key:登录 阿里云百炼控制台 → API Key 管理。qwen3.5-plus为滚动更新版,qwen3.5-plus-2026-02-15为快照版,生产环境建议固定使用快照版本,避免更新带来的行为变化。
3.2 开源版本部署
开源版 Qwen3.5-397B-A17B 建议 8 张 A100 80GB(或同等显存),FP8 量化版可将显存需求降低约 50%:
# SGLang(官方推荐,推理效率最优) python -m sglang.launch_server \ --model-path Qwen/Qwen3.5-397B-A17B \ --port 8000\ --tp-size 8\ --mem-fraction-static 0.8\ --context-length 262144\ --reasoning-parser qwen3 # vLLM(通用方案) vllm serve Qwen/Qwen3.5-397B-A17B \ --port 8000\ --tensor-parallel-size 8\ --max-model-len 262144\ --reasoning-parser qwen3 消费级硬件可使用 llama.cpp + GGUF 量化版(由 Unsloth 维护,支持视觉功能),Apple Silicon 用户可通过 MLX/mlx-vlm 运行。
3.3 推荐采样参数
Qwen 团队给出了两种模式的官方推荐参数。非思考模式的 presence_penalty=1.5 尤为关键,不加这个参数模型容易出现重复输出:
| 参数 | 思考模式 | 非思考模式 |
|---|---|---|
| temperature | 0.6 | 0.7 |
| top_p | 0.95 | 0.8 |
| top_k | 20 | 20 |
| min_p | 0.0 | 0.0 |
| presence_penalty | 0.0 | 1.5 |
两种模式的切换通过 API 参数 enable_thinking 控制,比 Qwen3 时代的 /think/nothink 软开关更标准化,方便程序化控制。
4、五大核心特性详解
4.1 混合注意力架构:线性 + 全注意力 3:1
这是整个 Qwen3.5 最值得重点讲透的技术创新。

Qwen3.5 的 60 层网络被拆分成 15 个重复单元,每个单元包含 4 个注意力块,按 3:1 的固定比例排列:
15 × [ Gated DeltaNet → MoE ← 线性注意力(O(n) 复杂度) Gated DeltaNet → MoE ← 线性注意力 Gated DeltaNet → MoE ← 线性注意力 Gated Attention → MoE ← 标准全注意力(O(n²) 复杂度) ] **为什么是 3:1?**75% 的层用线性注意力处理"流式理解",以极低成本完成上下文连续建模;25% 的层保留标准全注意力,在关键位置校准精度、执行精确检索。两种机制互补,是架构团队大量消融实验后得出的帕累托最优点。
结果数字:相比前代 Qwen3-Max,32K 上下文推理速度提升 8.6 倍,256K 上下文提升 19 倍,部署显存降低约 60%。这是架构层面带来的结构性优势,不是工程调优。
详细层参数:
- Gated DeltaNet 层:64 头(V)/ 16 头(QK),头维度 128
- Gated Attention 层:32 头(Q)/ 2 头(KV),头维度 256(16:1 极端 GQA 压缩)
4.2 原生多模态:不再是"插件"

过去的 VLM 通常是:先训练语言模型,再拼接视觉编码器,通过适配层(projector)注入图像 token。这种"插件式"多模态存在天然的模态割裂——两个模块对世界的表征从根源上就不在同一套语义空间里。
Qwen3.5 采用早期融合(Early Fusion Training):从预训练第一天起,就在混合了文本、图像、视频 token 的数据上进行联合训练。技术上使用 DeepStack Vision Transformer:
- 用 Conv3d 进行时序 patch 嵌入,把视频当作第三维度,原生捕获时序动态
- 融合视觉编码器多层特征,同时保留细粒度纹理和高层语义
- 多模态训练吞吐量接近纯文本的 100%,几乎零额外开销
效果验证:MathVision 全球第一(88.6),OCRBench 全球第一(93.1),OmniDocBench 文档理解全球第一(90.8)。
4.3 百万 Token 超长上下文
原生上下文 262,144 tokens(约 26 万),通过 YaRN 扩展至 1,010,000 tokens(约 101 万),API 版(qwen3.5-plus)直接支持 100 万 token。
位置编码方面,RoPE 基础频率从标准 10,000 提升至 1,000,000(提升 100 倍),配合 YaRN 实现平滑外推,解决长序列外推时的位置编码失效问题。得益于线性注意力,处理 256K token 时速度比原来快 19 倍,成本降低 60%——超长上下文终于成为可在生产环境大规模使用的实际选项。
4.4 201 种语言支持
词表从约 150K 扩展到 250K(248,320 padded),支持语言从 82 种扩展到 201 种语言和方言。更大的词表让稀有语言不再需要被拆分成大量 subword token,降低低资源语言的 token 碎片化程度。
NOVA-63 基准(62 种低资源语言):Qwen3.5 以 59.1 全球第一,GPT-5.2 54.6,Gemini-3 Pro 56.7。
4.5 百万智能体环境 RL 训练

这是 Qwen3.5 后训练的核心升级,理解它需要先看清楚整个四阶段训练流程的演进逻辑。
4.5.1 四阶段后训练流程
Qwen 系列的后训练框架最早在 Qwen3 技术报告(arXiv:2505.09388)中系统性提出,Qwen3.5 在此基础上进行了规模升级:
Stage 1:长链式思维冷启动(Long-CoT Cold Start)
在高质量长链推理数据上进行监督微调(SFT),激活模型的逐步推理能力。这一阶段的关键是数据质量而非数量——需要精心构造多步骤、有完整推理链的样本,让模型学会"把解题过程写出来"的基本范式。如果跳过这一步直接进行 RL,模型往往产生格式混乱的短响应,而不是期望的思维链。
Stage 2:推理强化学习(Reasoning RL)
在数学、编程、逻辑推理等有明确验证器(verifier)的任务上进行强化学习。这类任务的关键优势是奖励信号是客观的——答案对或错,不需要人工标注 reward model,大幅降低了 RL 的成本和偏差。Qwen3 使用 GRPO(Group Relative Policy Optimization),Qwen3.5 升级到 GSPO(Group Sequence Policy Optimization),下文详述。
Stage 3:混合模式融合(Thinking Mode Fusion)
把"深度思考模式"和"快速直答模式"统一到同一个模型中。技术实现上是把两种模式的训练数据混合,配合 enable_thinking 参数控制输出格式:开启时生成 <think>...</think> 推理链再输出答案,关闭时直接输出。
这个阶段解决的核心矛盾是:Stage 2 训练出的模型在思维链任务上很强,但在快速对话上因为强制生成 CoT 而响应过慢;通过 Mode Fusion,两种能力可以共存于同一权重中,由调用方按需选择。
Stage 4:通用强化学习(General RL)
在更广泛的任务分布上进行最终对齐,涵盖指令遵循、安全性、格式规范、工具调用等。这一阶段的奖励模型更复杂(需要综合评估多个维度),但经过前三阶段的预热,模型已经具备足够的推理稳定性,可以处理更模糊的奖励信号。
Qwen3.5 的创新在于把 Stage 4 扩展到百万级智能体环境:训练时并行展开 100 万个 Agent 任务,任务复杂度从简单到复杂逐步递增,让模型在海量环境中学习真实世界的适应性。
4.5.2 GSPO:从 Token 级到序列级的 Policy Optimization
GRPO 的问题
GRPO(Group Relative Policy Optimization)是 DeepSeek 团队提出并被 Qwen3 沿用的算法。其核心思路是:对同一问题采样多个候选输出,以组内平均奖励为基线,计算每个输出相对于基线的优势函数 A,然后用 PPO 风格的 clipped objective 更新策略:
L G R P O = E [ min ( r t o k e n ⋅ A , clip ( r t o k e n , 1 − ε , 1 + ε ) ⋅ A ) ] L_{GRPO} = \mathbb{E}\left[\min\left(r_{token} \cdot A,\ \text{clip}(r_{token},\ 1-\varepsilon,\ 1+\varepsilon) \cdot A\right)\right] LGRPO=E[min(rtoken⋅A, clip(rtoken, 1−ε, 1+ε)⋅A)]
其中 r t o k e n = π θ ( a t ∣ s t ) π r e f ( a t ∣ s t ) r_{token} = \dfrac{\pi_\theta(a_t \mid s_t)}{\pi_{ref}(a_t \mid s_t)} rtoken=πref(at∣st)πθ(at∣st) 为 token 级别的 policy ratio
问题在于:奖励(reward)是序列级别的(一个输出对不对,只有在整个序列生成完后才能判断),但 policy ratio 是 token 级别的(每个 token 单独计算 π_θ / π_ref)。这种不匹配导致:
- 方差过高:序列内不同 token 的 policy ratio 差异很大,但它们共享同一个序列级奖励,梯度估计噪声大
- 信用分配问题:哪些 token 真正对最终答案的正确性有贡献,GRPO 无法区分
- 训练不稳定:在长序列(尤其是超长思维链)中,token 级 ratio 累积后可能超出 clip 范围,导致梯度爆炸
GSPO 的解法
GSPO(Group Sequence Policy Optimization)的核心改动是:直接在完整序列层面计算 policy ratio,而不是逐 token 计算:
L G S P O = E [ min ( r s e q ⋅ A , clip ( r s e q , 1 − ε , 1 + ε ) ⋅ A ) ] L_{GSPO} = \mathbb{E}\left[\min\left(r_{seq} \cdot A,\ \text{clip}(r_{seq},\ 1-\varepsilon,\ 1+\varepsilon) \cdot A\right)\right] LGSPO=E[min(rseq⋅A, clip(rseq, 1−ε, 1+ε)⋅A)]
其中:
r s e q = π θ ( o u t p u t ∣ i n p u t ) π r e f ( o u t p u t ∣ i n p u t ) = ∏ t = 1 T π θ ( a t ∣ i n p u t , a < t ) π r e f ( a t ∣ i n p u t , a < t ) r_{seq} = \frac{\pi_\theta(output \mid input)}{\pi_{ref}(output \mid input)} = \prod_{t=1}^{T} \frac{\pi_\theta(a_t \mid input,\ a_{<t})}{\pi_{ref}(a_t \mid input,\ a_{<t})} rseq=πref(output∣input)πθ(output∣input)=t=1∏Tπref(at∣input, a<t)πθ(at∣input, a<t)
A = R − mean ( R ) std ( R ) , ε 为 clip 超参数(通常 0.1 ∼ 0.2 ) A = \frac{R - \text{mean}(R)}{\text{std}(R)}, \quad \varepsilon \text{ 为 clip 超参数(通常 } 0.1 \sim 0.2\text{)} A=std(R)R−mean(R),ε 为 clip 超参数(通常 0.1∼0.2)
关键区别:r_seq 是整个序列的联合概率比值(所有 token 的 policy ratio 连乘),而不是每个 token 单独的 ratio。这样做的好处:
- 奖励与优化目标对齐:序列级奖励 R 对应序列级 policy ratio r_seq,梯度方向与实际目标一致
- 方差更低:clip 操作在序列级别生效,避免单个 token ratio 异常值影响整体更新
- 信用分配隐式改善:整个序列作为一个整体被 reward,token 之间的协同贡献被隐式考虑
实验结果显示,GSPO 相比 GRPO 在复杂推理任务上训练更稳定,收敛更快,尤其在超长思维链(2000+ token 的 CoT)场景下优势明显。
4.5.3 异步 RL 基础设施
传统 RL 训练是同步模式:生成一批样本 → 评估奖励 → 更新参数 → 串行等待。Qwen3.5 引入异步框架,将训练(参数更新)与推理(样本生成)工作负载解耦,持续迭代优化:
- Speculative Decoding(投机解码):加速训练时的样本生成,降低 RL 训练中推理成本占比
- Rollout Replay(轨迹回放):复用历史样本,提升数据效率,减少对实时推理的依赖
- Multi-turn Rollout Locking:保证多轮对话 RL 的状态一致性,解决多轮场景下轨迹截断问题
- 动态负载均衡:快速故障恢复,集群利用率接近 100%
效果验证:Terminal-Bench 2.0(代理终端任务)得分 52.5,相比 Qwen3-Max-Thinking 的 22.5,提升幅度 133%。
5、性能表现:哪里强,哪里弱
性能评测是最容易让人迷失的部分——各厂都挑对自己有利的基准展示。下面尽量把完整图景呈现出来,包括 Qwen3.5 的明显弱项。
5.1 夺冠项目

以下是 Qwen3.5-397B 在各类基准上全球第一的项目(对比:GPT-5.2、Claude Opus 4.5、Gemini-3 Pro、Kimi K2.5):
| 基准测试 | 类别 | Qwen3.5 | 第二名 | 优势 |
|---|---|---|---|---|
| IFBench | 指令遵循 | 76.5 | GPT-5.2 (75.4) | +1.1 |
| MultiChallenge | 指令遵循 | 67.6 | Gemini-3 Pro (64.2) | +3.4 |
| NOVA-63 | 多语言(低资源) | 59.1 | Gemini-3 Pro (56.7) | +2.4 |
| BrowseComp(英文搜索) | 搜索智能体 | 78.6 | Kimi K2.5 (74.9) | +3.7 |
| MathVision | 视觉数学 | 88.6 | Gemini-3 Pro (86.6) | +2.0 |
| MathVista mini | 视觉数学场景 | 90.3 | Gemini-3 Pro (87.9) | +2.4 |
| OCRBench | 文字识别 | 93.1 | Claude Opus 4.5 (85.8) | +7.3 |
| OmniDocBench v1.5 | 文档理解 | 90.8 | Gemini-3 Pro (88.5) | +2.3 |
| AndroidWorld | 手机端 GUI Agent | 66.8 | — | — |
| MAXIFE | 多语言指令遵循 | 88.2 | GPT-5.2 (88.4)≈ | ≈ |
指令遵循是本次最亮眼的领域——IFBench 和 MultiChallenge 双双刷新全球纪录,这背后是 GSPO + 四阶段后训练的直接回报。指令遵循能力在复杂 Agent 系统中决定模型的"服从性",是工程落地中比 MMLU 更实用的指标。
多模态视觉的统治力也很强,OCRBench 93.1 比第二名领先超过 7 个百分点,文档处理类应用的选型几乎可以直接定了。
5.2 相对落后的项目
| 基准测试 | Qwen3.5 | 领先者 | 差距 |
|---|---|---|---|
| AIME 2026(竞赛数学) | 91.3 | GPT-5.2 (96.7) | -5.4 |
| GPQA Diamond(博士级科学推理) | 88.4 | GPT-5.2 (92.4) | -4.0 |
| SWE-bench Verified(软件工程) | 76.4 | Claude Opus 4.5 (80.9) | -4.5 |
| TAU2-Bench(智能体对话) | 86.7 | Claude Opus 4.5 (91.6) | -4.9 |
| HLE(顶级知识难题) | 28.7 | Gemini-3 Pro (37.5) | -8.8 |
| OSWorld-Verified(PC 桌面控制) | 62.2 | Claude Opus 4.5 (66.3) | -4.1 |
顶级数学推理(AIME)和高难度科研问题(GPQA、HLE)是 GPT-5.2 的绝对强项,在这里有明显差距。软件工程(SWE-bench)方面 Claude Opus 4.5 也领先一截。
注:以上数据均来自阿里巴巴官方模型卡,独立第三方验证仍在进行中。
5.3 推理效率:最大亮点
| 对比基准 | 32K 上下文 | 256K 上下文 |
|---|---|---|
| vs Qwen3-Max(前代旗舰,>1T参数) | 8.6× 更快 | 19× 更快 |
| vs Qwen3-235B(前代同级) | 3.5× 更快 | 7.2× 更快 |
FP8 精度训练让推理时激活内存减少约 50%,部署显存降低约 60%。A100 单卡 4-bit 量化下,推理速度约 28 tokens/秒——对于 397B 的模型,这个数字相当可观。
5.4 性价比:价格仅为 Gemini-3 Pro 的 1/18

官方数据:Qwen3.5-Plus 价格仅为 Gemini-3 Pro 的 1/18,1M Token 上下文单次调用成本约 $0.18,国内阿里云百炼中国区定价约 0.8 元/百万 token(输入)。
以每天调用 10 亿 token 计算,使用 Qwen3.5-Plus 与 Gemini-3 Pro 的月度成本差异可达数十万人民币,这个价格差在企业级应用的商业模型中是决定性的。
6、架构创新:Gated Delta Networks 是什么
6.1 传统注意力的瓶颈
标准 Transformer 的注意力机制,本质上是让序列中每个 token 去"关注"所有其他 token,计算相似度(Q·K)后加权求和(×V)。时间与空间复杂度都是 O(n²)。
具体来说:到了 256K token,注意力矩阵大小是 256K × 256K ≈ 656 亿个元素,早已超出 GPU 显存上限。KV Cache 虽能避免重复计算,但 Cache 本身随序列线性增长——256K 上下文下光 KV Cache 就能吃掉数十 GB 显存,这是超长上下文推理贵、慢的根本原因,是算法复杂度决定的,而非工程实现不够好。
6.2 Gated Delta Networks 原理

Gated Delta Networks(arXiv:2412.06464,NVIDIA + MIT,NeurIPS 2025 获奖)的核心思路:维护一个固定大小的隐藏状态矩阵,把历史信息"压缩"进去,新 token 通过**增量更新(delta update)**修改这个状态。无论序列多长,隐藏状态大小不变,计算复杂度降至 O(n)。
它结合了两个机制:
门控衰减(Gated Decay,来自 Mamba2):对历史状态施加可学习的衰减权重,由当前 token 内容动态决定,让模型选择性"遗忘"不重要的旧信息。
Delta 规则(增量更新):新 token 不直接覆盖隐藏状态,而是计算自己与当前状态的"差值(delta)“,以增量方式更新——类似版本控制的差量 patch,而不是全量覆盖。两者结合,实现了"动态压缩记忆 + 选择性增量写入”。
此外,线性注意力消除了传统 Softmax 注意力的 attention sink 问题——传统注意力中少数特殊 token 会吸走大量注意力权重,导致其他 token 被忽略;线性注意力对超长序列的信息利用理论上更均匀。
6.3 3:1 混合比例的设计逻辑
线性注意力是有损压缩,对"流式理解"很好,但"精确检索"(在 100 万 token 中定位某个具体数字)有损失;标准全注意力精确但 O(n²) 成本不可承受。3:1 比例是大量消融实验得出的帕累托最优点:75% 线性层负责低成本连续建模,25% 全注意力层负责关键位置的精确校准,在大多数基准上已接近纯全注意力模型的性能,但推理速度提升 8-19 倍。
6.4 线性注意力技术谱系
要理解 Gated Delta Networks 为什么是当前最强的线性注意力方案,需要把它放在整个技术演进谱系中来看:
| 架构 | 提出时间 | 状态更新机制 | 遗忘机制 | 精确检索能力 |
|---|---|---|---|---|
| RWKV-4 | 2023 | Linear Attention(时序 WKV) | 固定指数衰减 | 弱 |
| RetNet | 2023 | 递推矩阵乘法 | 固定 γ 衰减 | 中 |
| Mamba/Mamba2 | 2023/2024 | SSM 状态空间 | 选择性门控(输入依赖) | 中 |
| GLA(门控线性注意力) | 2024 | 门控线性注意力 | 可学习门控 | 中 |
| Gated Delta Networks | 2024.12 | Delta Rule + 门控衰减 | 动态门控 + 增量更新 | 较强 |
关键演进方向:从"固定衰减"→"选择性门控"→"动态门控 + 增量更新",逐步提升了对历史信息的选择性保留能力。Gated Delta Networks 相比 Mamba2 的核心改进是:Mamba2 在状态更新时直接用新值替换部分旧信息(additive update),而 Gated Delta Networks 先计算"当前 value 与旧状态预测的差值",再用这个差值更新状态(delta update)——这使得模型可以修正错误的历史"猜测",而不仅仅是追加新信息,精确检索能力因此得到提升。
核心状态更新数学公式(精确版):
给定输入 x t x_t xt,逐步计算:
β t = σ ( W β ⋅ x t ) (门控因子, σ 为 sigmoid,值域 [ 0 , 1 ] ) \beta_t = \sigma(W_\beta \cdot x_t) \quad \text{(门控因子,}\sigma \text{ 为 sigmoid,值域 } [0,1]\text{)} βt=σ(Wβ⋅xt)(门控因子,σ 为 sigmoid,值域 [0,1])
k t = φ ( W k ⋅ x t ) , v t = W v ⋅ x t , q t = W q ⋅ x t k_t = \varphi(W_k \cdot x_t),\quad v_t = W_v \cdot x_t,\quad q_t = W_q \cdot x_t kt=φ(Wk⋅xt),vt=Wv⋅xt,qt=Wq⋅xt
δ t = β t ⊙ ( v t − S t − 1 ⋅ k t ) (delta:真实 value 与旧状态预测值之差) \delta_t = \beta_t \odot \bigl(v_t - S_{t-1} \cdot k_t\bigr) \quad \text{(delta:真实 value 与旧状态预测值之差)} δt=βt⊙(vt−St−1⋅kt)(delta:真实 value 与旧状态预测值之差)
S t = S t − 1 + δ t ⊗ k t (外积,增量写入状态矩阵) S_t = S_{t-1} + \delta_t \otimes k_t \quad \text{(外积,增量写入状态矩阵)} St=St−1+δt⊗kt(外积,增量写入状态矩阵)
o t = S t ⋅ q t (query 从状态矩阵中读取输出) o_t = S_t \cdot q_t \quad \text{(query 从状态矩阵中读取输出)} ot=St⋅qt(query 从状态矩阵中读取输出)
符号含义说明:
- S t S_t St:状态矩阵( d h e a d × d h e a d d_{head} \times d_{head} dhead×dhead 固定大小,是整个历史的"压缩记忆")
- β t \beta_t βt:门控衰减因子( 0 ∼ 1 0 \sim 1 0∼1),由当前 token 内容动态决定,控制"遗忘多少历史信息"
- S t − 1 ⋅ k t S_{t-1} \cdot k_t St−1⋅kt:用旧状态"预测"当前 key 对应的 value 应该是什么
- δ t \delta_t δt:预测值与真实 value 之差,只有"预测错误的部分"才会写入状态(类比误差反向传播)
- δ t ⊗ k t \delta_t \otimes k_t δt⊗kt:外积,将差值"写入"状态矩阵中 key 对应的方向
为什么这比纯替换(overwrite)更好?
纯替换式更新(S_t = α × S_{t-1} + v_t ⊗ k_t)会无差别地把新信息叠加进去,导致历史状态被逐渐"覆盖"。而 delta rule 的精妙之处在于:如果旧状态对当前 key 的预测已经很准确(S_{t-1} · k_t ≈ v_t),则 δ_t ≈ 0,状态几乎不变——模型自动识别出"这条信息已经在记忆里了,不需要重复写入"。只有真正的"新信息"(预测误差大的部分)才会被写入状态,使状态的信息密度更高,对精确检索更友好。
7、MoE 架构深度解析
7.1 Qwen3.5 MoE 精确规格
Qwen3.5-397B-A17B 的 MoE 配置是其高性价比的核心来源:
| 参数 | 数值 | 说明 |
|---|---|---|
| 总参数量 | 397B | 3970 亿,包含所有专家权重 |
| 激活参数量 | 17B | 每次前向传播约 4.3% 被激活 |
| 总层数 | 60 层 | 15 × [3×DeltaNet + 1×Attention] |
| 每层专家总数 | 512 个 | 相比 Qwen3 的 128 个增加 4× |
| 路由专家(激活) | 10 个 | Top-10 稀疏路由 |
| 共享专家(固定激活) | 1 个 | 每次必然激活 |
| 总激活专家数 | 11 个 | 10 路由 + 1 共享 |
| 专家利用率 | 11/512 ≈ 2.1% | 极度稀疏,内存效率极高 |
| 专家中间维度 | 1,024 | 每个专家的 FFN 宽度 |
| 隐藏维度 | 4,096 | 主干网络宽度 |
512 个专家中同时只有 11 个被激活,专家利用率仅 2.1%,但 397B 的"知识储量"完整保留。这是 MoE 架构的根本优势:以"存储成本"换"计算效率"。
7.2 共享专家的作用:为什么要重新引入
Qwen 系列的 MoE 设计有一段有趣的演进历史:
Qwen2.5-MoE(有共享专家) ↓ Qwen3-MoE(去掉共享专家,更极致的稀疏) ↓ Qwen3-Next(超稀疏 MoE 中间过渡版) ↓ Qwen3.5-MoE(重新引入共享专家,且专家数扩大到512) Qwen3 曾经尝试去掉共享专家,追求更极致的稀疏性。但 Qwen3.5 又把它加回来了——这不是走回头路,而是实验数据说话:共享专家在大规模 MoE 训练中有三个关键价值:
1. 处理通用特征:共享专家每次都会激活,自然承担了"所有 token 都需要的基础处理"——语法理解、基本语义、格式识别等。路由专家则专注于领域特定知识(数学、代码、特定语言等)。这种分工让专家各司其职,效率更高。
2. 防止专家坍塌(Expert Collapse):纯稀疏路由有一个风险——路由器倾向于反复选择同几个"好用"的专家,导致其他专家长期得不到训练,最终"坍塌"(权重停止更新,丧失专业能力)。共享专家的存在提供了稳定的梯度来源,使整个 MoE 系统的训练更稳定。
3. 表征连续性:跨越不同 token、不同领域的共享处理,有助于维持不同上下文间的语义连贯性,对长序列任务尤其重要。
值得对比的是,DeepSeek-V3 也采用了 shared + routed expert 的路线(1 个共享专家 + 256 个路由专家,每次激活 8 个路由专家),这与 Qwen3.5 的选择高度一致。两个独立研究团队走向了相同的设计,为这条路线提供了更强的实验支撑。
7.3 专家路由机制:Top-K 稀疏路由与负载均衡
每次前向传播时,路由器(Router)为每个 token 计算对所有专家的亲和度(affinity score),然后选择 Top-10 的路由专家参与计算:
scores_i = softmax(W_r · h_t) # 每个专家的路由得分 top_k_idx = argsort(scores_i)[-10:] # 选择得分最高的10个专家 output = sum(scores_i[j] * E_j(h_t) for j in top_k_idx) + E_shared(h_t) 负载均衡损失(Auxiliary Loss):纯粹的 Top-K 路由存在"马太效应"——能力强的专家被频繁选择,弱的专家被冷落。为此,训练时加入负载均衡辅助损失:
L_aux = α × Σ_i (f_i × P_i) 其中 f_i 是专家 i 被实际选中的频率,P_i 是路由器对专家 i 的平均分配概率 α 是较小的系数(通常 0.01~0.001),避免影响主任务优化 这个损失鼓励所有专家被均匀使用,防止路由器"偷懒"只用少数几个专家。
7.4 极端 GQA(16:1 压缩比)的工程意义
Qwen3.5 的标准全注意力层(Gated Attention 层)采用了极端的分组查询注意力(GQA)配置:32 个 Q 头对应 2 个 KV 头,即 16:1 的压缩比。
这个设计的工程意义非常直接:
| 配置 | Q 头数 | KV 头数 | KV Cache 大小(相对) | 精度影响 |
|---|---|---|---|---|
| MHA(多头注意力) | 32 | 32 | 100%(基准) | 最高 |
| GQA 4:1 | 32 | 8 | 25% | 微降 |
| GQA 16:1(Qwen3.5) | 32 | 2 | 6.25% | 可接受 |
在 256K token 的超长上下文下,KV Cache 的大小本身就是主要瓶颈之一。16:1 的 GQA 将全注意力层的 KV Cache 压缩到原始多头注意力的 6.25%,极大降低了长上下文场景下的显存占用,同时通过实验验证精度损失在可接受范围内。这与 Gated Delta Networks 的固定大小隐藏状态一起,构成了 Qwen3.5 长上下文内存效率的双重保障。
8、行业意义:Agent 时代的新起点

2026 年 2 月,大模型界密集发生了几件事:
- Kimi K2.5(月之暗面,2026年1月27日):总参数 ~1T,采用 MLA(Multi-head Latent Attention),主打超稀疏激活
- GLM-5(智谱 AI,2026年2月11日):MLA + 动态稀疏注意力(DSA),激活参数约 17-22B
- MiniMax M2.5(MiniMax,2026年2月11日):标准 MHA + MoE,激活参数约 10B
- Qwen3.5(阿里,2026年2月16日):Gated DeltaNet + 全注意力 3:1 混合,激活参数 17B
四家,五天,无一例外将 Agentic 作为核心定位——这不是巧合,而是行业对大模型竞争方向产生了高度一致的判断:大模型竞争的重心,正在从聊天能力转向 Agent 能力。
在常规对话、知识问答等任务上,主流大模型的能力已高度趋同,差异化越来越难。真正能替代人类工作的形态——自主控制电脑界面、调用 API、写代码并自动 debug、在网上搜集信息生成报告——商业价值远比聊天机器人大得多。
注意力机制的路线分歧:
| 模型 | 注意力路线 | 激活参数 | 策略关键词 |
|---|---|---|---|
| Qwen3.5 | Gated DeltaNet 3:1 混合 | 17B | 速度优先,超长上下文效率 |
| Kimi K2.5 | MLA(低秩压缩注意力) | ~32B | 极度压缩 KV Cache |
| GLM-5 | MLA + 动态稀疏 | ~17-22B | 精确稀疏,节约计算 |
| MiniMax M2.5 | 标准 MHA | 10B | 简洁可靠,追求稳定 |

四家走出了完全不同的路线,说明"如何高效处理超长上下文"这个问题,整个行业还没有统一答案。Qwen3.5 押注线性注意力,是目前唯一大规模验证 Gated Delta Networks 工业化可行性的 400B 级模型——这本身就是一个重要的技术里程碑。从 AI 应用工程师视角看,我们需要开始认真评估模型的 Agent 能力:能否可靠调用工具、多步骤任务完成率、超长上下文中不"迷失",这些在 2026 年以后的产品设计中会越来越重要。
9、总结
Qwen3.5 做对了什么?
架构上,Gated Delta Networks 的 3:1 混合设计是最有价值的技术贡献——第一次在 400B 级生产模型上实现了线性注意力的工业化落地,用 19 倍长上下文加速证明了这条路线。512 专家 + 重新引入共享专家的 MoE 设计,在专家稀疏度和训练稳定性之间找到了新的平衡。Early Fusion 多模态从根源上解决了模态割裂,OCR、文档理解、视觉数学的全球第一是有力证明。
哪里还有不足?
顶级数学推理(AIME 91.3 vs GPT-5.2 的 96.7)、高难度科研问题(HLE 28.7 vs Gemini-3 Pro 的 37.5)、软件工程(SWE-bench 76.4 vs Claude Opus 4.5 的 80.9)上仍有差距。技术报告尚未发布,基准数据来自官方自测,独立验证持续进行中。
对 AI 应用开发的实际落地价值:
| 应用场景 | 推荐理由 |
|---|---|
| 长文档处理 | 百万 token 上下文 + 19× 速度提升 |
| 多语言应用 | 201 种语言 + NOVA-63 全球第一 |
| 文档/OCR 应用 | OCRBench 93.1、OmniDocBench 全球第一 |
| GUI Agent 开发 | AndroidWorld 66.8 全球第一 |
| 成本敏感型业务 | 价格仅为 Gemini-3 Pro 的 1/18 |
Qwen3.5 的除夕开源,交了一份技术上有真实突破的答卷。Gated Delta Networks 从 NeurIPS 论文到 400B 量产模型,只用了不到 3 个月,这个速度本身就说明了阿里工程团队的执行力。后续技术报告发布后,还会有更多架构细节值得深挖,我会持续跟踪更新。
数据来源:本文数据主要来源于 HuggingFace 官方模型卡、GitHub 官方仓库、Qwen 官方博客、Qwen3 技术报告 arXiv:2505.09388 及 阿里云 Model Studio 文档,截至 2026 年 2 月 20 日。