阿里开源Qwen3.5：混合线性注意力让推理速度提升19倍，这个架构选择值得深挖.md

Ne0inhk

20 Mar 2026 — 35 min read

文章目录

1、前言
2、Qwen3.5 是什么
3、快速上手
4、五大核心特性详解
5、性能表现：哪里强，哪里弱
6、架构创新：Gated Delta Networks 是什么
7、MoE 架构深度解析
8、行业意义：Agent 时代的新起点
9、总结

🍃作者介绍：25届双非本科网络工程专业，阿里云专家博主，深耕 AI 原理 / 应用开发 / 产品设计。前几年深耕Java技术体系，现专注把 AI 能力落地到实际产品与业务场景。
🦅个人主页：@逐梦苍穹
🐼GitHub主页：https://github.com/XZL-CODE
✈ 您的一键三连，是我创作的最大动力🌹

⚠️ 阅读说明：截至本文发布时，Qwen3.5 官方技术报告尚未公开（GitHub 标注 paper coming soon）。本文技术分析均基于官方模型卡、HuggingFace 发布博客及官方博客，部分架构细节为基于已公开信息的推断，待官方论文发布后以正式论文为准。

1、前言

2026 年 2 月 16 日，农历除夕，阿里巴巴通义千问团队选了一个极具仪式感的时间节点，悄悄将 Qwen3.5 推上了 HuggingFace。没有铺天盖地的发布会，没有提前的营销预热，就这么把一个 397B 参数的开源旗舰模型扔出来，顺手附赠 Apache 2.0 许可证——这波"春节开源礼"让全球 AI 社区在年关时分炸了锅，发布后 3 天 HuggingFace 下载量突破 10.5 万次，OpenRouter 平台单日请求量达 25 万次。

之所以说它值得认真解读，不只是因为参数量大或跑分亮眼，而是因为 Qwen3.5 在架构层面做出了一个真正不同寻常的选择：将**线性注意力机制（Gated Delta Networks）**以 3:1 的比例嵌入到 MoE 模型中，并在此基础上实现了原生多模态融合和百万 Token 上下文。这不是小幅调参，是一次系统性的架构重构。值得一提的是，截至本文撰写时（2026年2月20日），Qwen3.5 的 arXiv 技术报告尚未发布（GitHub 标注"Paper — coming soon"），本文所有技术细节均来自官方模型卡、HuggingFace 博客及官方发布博客。

2、Qwen3.5 是什么

2.1 一句话定位

Qwen3.5 是阿里巴巴通义千问团队发布的新一代原生多模态智能体基础模型，官方标题 “Towards Native Multimodal Agents” 已经说明了核心目标——不是做更强的聊天机器人，而是为 AI 智能体（Agent）时代提供一套从底层架构就经过重新设计的基础设施。

首发版本 Qwen3.5-397B-A17B 总参数 397B，每次前向传播仅激活 17B 参数（约 4.3% 的激活率），既保留了大模型的"知识储量"，又把推理成本压到中等规模模型的水准。

2.2 与 Qwen3 的关键区别

维度	Qwen3（2025年4月）	Qwen3.5（2026年2月）	变化
注意力机制	标准 Softmax + GQA	Gated DeltaNet 3:1 混合	质变
MoE 专家总数	128 个	512 个	+300%
共享专家	无	有（1个固定激活）	新增
多模态支持	独立 Qwen3-VL 部署	原生早期融合	质变
支持语言数	82 种	201 种	+145%
词表大小	~150K	~250K	+67%
原生上下文	最长 128K	262K	2×
可扩展上下文	—	1,010,000 tokens	全新
32K 解码吞吐量	基准 1×	8.6×	显著
256K 解码吞吐量	基准 1×	19×	质变
RL 训练规模	有限规模	百万级智能体环境	数量级提升
推理成本	基准	降低 60%	显著

从这张表可以直观看出：Qwen3 → Qwen3.5 从注意力机制到训练范式都发生了系统性变化，绝非一次 minor update。

2.3 发布时间线

理解 Qwen3.5 的架构选择，需要先看清楚它是怎么"走过来"的：

日期	事件
2025年4月28日	Qwen3 系列发布（0.6B–235B，纯语言模型，119种语言）
2025年7月	Qwen3-235B-A22B 长上下文增强版（256K）
2025年9月10日	Qwen3-Next（超稀疏 MoE + 混合注意力，Qwen3.5 的架构预演版）
2025年9月22日	Qwen3-Omni（端到端文本/图像/音频/视频多模态）
2026年1月27日	`qwen3-max-2026-01-23` 快照（集成思考+工具调用）
2026年2月16日	Qwen3.5-397B-A17B 开源 + `qwen3.5-plus` API 上线
2026年2月（进行中）	技术报告正式版（arXiv，coming soon）

关键节点：2025年9月的 Qwen3-Next 是整个 Qwen3.5 故事的"序章"——混合注意力的核心设计（Gated Delta Networks + 全注意力 3:1）在那时已经完成了工程可行性验证，Qwen3.5 是把它推向 397B 生产规模的正式版本。这条技术路线的"孵化期"长达 5 个月。

3、快速上手

3.1 API 调用（阿里云百炼）

Qwen3.5-Plus 已在阿里云百炼（DashScope / Model Studio）上线，完整兼容 OpenAI 格式，上下文窗口达 100 万 tokens，定价 $0.4/1M 输入 token，$2.4/1M 输出 token。

思考模式（Thinking Mode）——适合复杂推理、代码生成、深度分析：

from openai import OpenAI client = OpenAI( api_key="YOUR_DASHSCOPE_API_KEY", base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",)# 思考模式：模型先生成 <think>...</think> 推理链，再输出最终答案 response = client.chat.completions.create( model="qwen3.5-plus", messages=[{"role":"user","content":"用 Python 实现一个 LRU Cache，要求线程安全，并分析时间复杂度。"}], extra_body={"enable_thinking":True},# 开启思考模式 temperature=0.6, top_p=0.95,)# 打印思考过程ifhasattr(response.choices[0].message,'reasoning_content'):print("=== 思考过程 ===")print(response.choices[0].message.reasoning_content)print("=== 最终回答 ===")print(response.choices[0].message.content)

非思考模式（Non-Thinking Mode）——适合对话、简单问答、快速响应场景：

from openai import OpenAI client = OpenAI( api_key="YOUR_DASHSCOPE_API_KEY", base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",) response = client.chat.completions.create( model="qwen3.5-plus", messages=[{"role":"system","content":"You are a helpful assistant."},{"role":"user","content":"帮我用一句话解释什么是 MoE 架构。"}], extra_body={"enable_thinking":False},# 关闭思考模式，直接输出 temperature=0.7, top_p=0.8, presence_penalty=1.5,# 非思考模式建议设置，防止重复输出)print(response.choices[0].message.content)

获取 API Key：登录阿里云百炼控制台 → API Key 管理。qwen3.5-plus 为滚动更新版，qwen3.5-plus-2026-02-15 为快照版，生产环境建议固定使用快照版本，避免更新带来的行为变化。

3.2 开源版本部署

开源版 Qwen3.5-397B-A17B 建议 8 张 A100 80GB（或同等显存），FP8 量化版可将显存需求降低约 50%：

# SGLang（官方推荐，推理效率最优） python -m sglang.launch_server \ --model-path Qwen/Qwen3.5-397B-A17B \ --port 8000\ --tp-size 8\ --mem-fraction-static 0.8\ --context-length 262144\ --reasoning-parser qwen3 # vLLM（通用方案） vllm serve Qwen/Qwen3.5-397B-A17B \ --port 8000\ --tensor-parallel-size 8\ --max-model-len 262144\ --reasoning-parser qwen3

消费级硬件可使用 llama.cpp + GGUF 量化版（由 Unsloth 维护，支持视觉功能），Apple Silicon 用户可通过 MLX/mlx-vlm 运行。

3.3 推荐采样参数

Qwen 团队给出了两种模式的官方推荐参数。非思考模式的 presence_penalty=1.5 尤为关键，不加这个参数模型容易出现重复输出：

参数	思考模式	非思考模式
temperature	0.6	0.7
top_p	0.95	0.8
top_k	20	20
min_p	0.0	0.0
presence_penalty	0.0	1.5

两种模式的切换通过 API 参数 enable_thinking 控制，比 Qwen3 时代的 /think/nothink 软开关更标准化，方便程序化控制。

4、五大核心特性详解

4.1 混合注意力架构：线性 + 全注意力 3:1

这是整个 Qwen3.5 最值得重点讲透的技术创新。

Qwen3.5 的 60 层网络被拆分成 15 个重复单元，每个单元包含 4 个注意力块，按 3:1 的固定比例排列：

15 × [ Gated DeltaNet → MoE ← 线性注意力（O(n) 复杂度） Gated DeltaNet → MoE ← 线性注意力 Gated DeltaNet → MoE ← 线性注意力 Gated Attention → MoE ← 标准全注意力（O(n²) 复杂度） ]

**为什么是 3:1？**75% 的层用线性注意力处理"流式理解"，以极低成本完成上下文连续建模；25% 的层保留标准全注意力，在关键位置校准精度、执行精确检索。两种机制互补，是架构团队大量消融实验后得出的帕累托最优点。

结果数字：相比前代 Qwen3-Max，32K 上下文推理速度提升 8.6 倍，256K 上下文提升 19 倍，部署显存降低约 60%。这是架构层面带来的结构性优势，不是工程调优。

详细层参数：

Gated DeltaNet 层：64 头（V）/ 16 头（QK），头维度 128
Gated Attention 层：32 头（Q）/ 2 头（KV），头维度 256（16:1 极端 GQA 压缩）

4.2 原生多模态：不再是"插件"

过去的 VLM 通常是：先训练语言模型，再拼接视觉编码器，通过适配层（projector）注入图像 token。这种"插件式"多模态存在天然的模态割裂——两个模块对世界的表征从根源上就不在同一套语义空间里。

Qwen3.5 采用早期融合（Early Fusion Training）：从预训练第一天起，就在混合了文本、图像、视频 token 的数据上进行联合训练。技术上使用 DeepStack Vision Transformer：

用 Conv3d 进行时序 patch 嵌入，把视频当作第三维度，原生捕获时序动态
融合视觉编码器多层特征，同时保留细粒度纹理和高层语义
多模态训练吞吐量接近纯文本的 100%，几乎零额外开销

效果验证：MathVision 全球第一（88.6），OCRBench 全球第一（93.1），OmniDocBench 文档理解全球第一（90.8）。

4.3 百万 Token 超长上下文

原生上下文 262,144 tokens（约 26 万），通过 YaRN 扩展至 1,010,000 tokens（约 101 万），API 版（qwen3.5-plus）直接支持 100 万 token。

位置编码方面，RoPE 基础频率从标准 10,000 提升至 1,000,000（提升 100 倍），配合 YaRN 实现平滑外推，解决长序列外推时的位置编码失效问题。得益于线性注意力，处理 256K token 时速度比原来快 19 倍，成本降低 60%——超长上下文终于成为可在生产环境大规模使用的实际选项。

4.4 201 种语言支持

词表从约 150K 扩展到 250K（248,320 padded），支持语言从 82 种扩展到 201 种语言和方言。更大的词表让稀有语言不再需要被拆分成大量 subword token，降低低资源语言的 token 碎片化程度。

NOVA-63 基准（62 种低资源语言）：Qwen3.5 以 59.1 全球第一，GPT-5.2 54.6，Gemini-3 Pro 56.7。

4.5 百万智能体环境 RL 训练

这是 Qwen3.5 后训练的核心升级，理解它需要先看清楚整个四阶段训练流程的演进逻辑。

4.5.1 四阶段后训练流程

Qwen 系列的后训练框架最早在 Qwen3 技术报告（arXiv:2505.09388）中系统性提出，Qwen3.5 在此基础上进行了规模升级：

Stage 1：长链式思维冷启动（Long-CoT Cold Start）

在高质量长链推理数据上进行监督微调（SFT），激活模型的逐步推理能力。这一阶段的关键是数据质量而非数量——需要精心构造多步骤、有完整推理链的样本，让模型学会"把解题过程写出来"的基本范式。如果跳过这一步直接进行 RL，模型往往产生格式混乱的短响应，而不是期望的思维链。

Stage 2：推理强化学习（Reasoning RL）

在数学、编程、逻辑推理等有明确验证器（verifier）的任务上进行强化学习。这类任务的关键优势是奖励信号是客观的——答案对或错，不需要人工标注 reward model，大幅降低了 RL 的成本和偏差。Qwen3 使用 GRPO（Group Relative Policy Optimization），Qwen3.5 升级到 GSPO（Group Sequence Policy Optimization），下文详述。

Stage 3：混合模式融合（Thinking Mode Fusion）

把"深度思考模式"和"快速直答模式"统一到同一个模型中。技术实现上是把两种模式的训练数据混合，配合 enable_thinking 参数控制输出格式：开启时生成 <think>...</think> 推理链再输出答案，关闭时直接输出。

这个阶段解决的核心矛盾是：Stage 2 训练出的模型在思维链任务上很强，但在快速对话上因为强制生成 CoT 而响应过慢；通过 Mode Fusion，两种能力可以共存于同一权重中，由调用方按需选择。

Stage 4：通用强化学习（General RL）

在更广泛的任务分布上进行最终对齐，涵盖指令遵循、安全性、格式规范、工具调用等。这一阶段的奖励模型更复杂（需要综合评估多个维度），但经过前三阶段的预热，模型已经具备足够的推理稳定性，可以处理更模糊的奖励信号。

Qwen3.5 的创新在于把 Stage 4 扩展到百万级智能体环境：训练时并行展开 100 万个 Agent 任务，任务复杂度从简单到复杂逐步递增，让模型在海量环境中学习真实世界的适应性。

4.5.2 GSPO：从 Token 级到序列级的 Policy Optimization

GRPO 的问题

GRPO（Group Relative Policy Optimization）是 DeepSeek 团队提出并被 Qwen3 沿用的算法。其核心思路是：对同一问题采样多个候选输出，以组内平均奖励为基线，计算每个输出相对于基线的优势函数 A，然后用 PPO 风格的 clipped objective 更新策略：

L G R P O = E [ min ⁡ ( r t o k e n ⋅ A , clip ( r t o k e n , 1 − ε , 1 + ε ) ⋅ A ) ] L_{GRPO} = \mathbb{E}\left[\min\left(r_{token} \cdot A,\ \text{clip}(r_{token},\ 1-\varepsilon,\ 1+\varepsilon) \cdot A\right)\right] LGRPO=E[min(rtoken⋅A, clip(rtoken, 1−ε, 1+ε)⋅A)]

其中 r t o k e n = π θ ( a t ∣ s t ) π r e f ( a t ∣ s t ) r_{token} = \dfrac{\pi_\theta(a_t \mid s_t)}{\pi_{ref}(a_t \mid s_t)} rtoken=πref(at∣st)πθ(at∣st) 为 token 级别的 policy ratio

问题在于：奖励（reward）是序列级别的（一个输出对不对，只有在整个序列生成完后才能判断），但 policy ratio 是 token 级别的（每个 token 单独计算 π_θ / π_ref）。这种不匹配导致：

方差过高：序列内不同 token 的 policy ratio 差异很大，但它们共享同一个序列级奖励，梯度估计噪声大
信用分配问题：哪些 token 真正对最终答案的正确性有贡献，GRPO 无法区分
训练不稳定：在长序列（尤其是超长思维链）中，token 级 ratio 累积后可能超出 clip 范围，导致梯度爆炸

GSPO 的解法

GSPO（Group Sequence Policy Optimization）的核心改动是：直接在完整序列层面计算 policy ratio，而不是逐 token 计算：

L G S P O = E [ min ⁡ ( r s e q ⋅ A , clip ( r s e q , 1 − ε , 1 + ε ) ⋅ A ) ] L_{GSPO} = \mathbb{E}\left[\min\left(r_{seq} \cdot A,\ \text{clip}(r_{seq},\ 1-\varepsilon,\ 1+\varepsilon) \cdot A\right)\right] LGSPO=E[min(rseq⋅A, clip(rseq, 1−ε, 1+ε)⋅A)]

其中：

r s e q = π θ ( o u t p u t ∣ i n p u t ) π r e f ( o u t p u t ∣ i n p u t ) = ∏ t = 1 T π θ ( a t ∣ i n p u t , a < t ) π r e f ( a t ∣ i n p u t , a < t ) r_{seq} = \frac{\pi_\theta(output \mid input)}{\pi_{ref}(output \mid input)} = \prod_{t=1}^{T} \frac{\pi_\theta(a_t \mid input,\ a_{<t})}{\pi_{ref}(a_t \mid input,\ a_{<t})} rseq=πref(output∣input)πθ(output∣input)=t=1∏Tπref(at∣input, a<t)πθ(at∣input, a<t)

A = R − mean ( R ) std ( R ) , ε 为 clip 超参数（通常 0.1 ∼ 0.2 ） A = \frac{R - \text{mean}(R)}{\text{std}(R)}, \quad \varepsilon \text{ 为 clip 超参数（通常 } 0.1 \sim 0.2\text{）} A=std(R)R−mean(R),ε 为 clip 超参数（通常 0.1∼0.2）

关键区别：r_seq 是整个序列的联合概率比值（所有 token 的 policy ratio 连乘），而不是每个 token 单独的 ratio。这样做的好处：

奖励与优化目标对齐：序列级奖励 R 对应序列级 policy ratio r_seq，梯度方向与实际目标一致
方差更低：clip 操作在序列级别生效，避免单个 token ratio 异常值影响整体更新
信用分配隐式改善：整个序列作为一个整体被 reward，token 之间的协同贡献被隐式考虑

实验结果显示，GSPO 相比 GRPO 在复杂推理任务上训练更稳定，收敛更快，尤其在超长思维链（2000+ token 的 CoT）场景下优势明显。

4.5.3 异步 RL 基础设施

传统 RL 训练是同步模式：生成一批样本 → 评估奖励 → 更新参数 → 串行等待。Qwen3.5 引入异步框架，将训练（参数更新）与推理（样本生成）工作负载解耦，持续迭代优化：

Speculative Decoding（投机解码）：加速训练时的样本生成，降低 RL 训练中推理成本占比
Rollout Replay（轨迹回放）：复用历史样本，提升数据效率，减少对实时推理的依赖
Multi-turn Rollout Locking：保证多轮对话 RL 的状态一致性，解决多轮场景下轨迹截断问题
动态负载均衡：快速故障恢复，集群利用率接近 100%

效果验证：Terminal-Bench 2.0（代理终端任务）得分 52.5，相比 Qwen3-Max-Thinking 的 22.5，提升幅度 133%。

5、性能表现：哪里强，哪里弱

性能评测是最容易让人迷失的部分——各厂都挑对自己有利的基准展示。下面尽量把完整图景呈现出来，包括 Qwen3.5 的明显弱项。

5.1 夺冠项目

以下是 Qwen3.5-397B 在各类基准上全球第一的项目（对比：GPT-5.2、Claude Opus 4.5、Gemini-3 Pro、Kimi K2.5）：

基准测试	类别	Qwen3.5	第二名	优势
IFBench	指令遵循	76.5	GPT-5.2 (75.4)	+1.1
MultiChallenge	指令遵循	67.6	Gemini-3 Pro (64.2)	+3.4
NOVA-63	多语言（低资源）	59.1	Gemini-3 Pro (56.7)	+2.4
BrowseComp（英文搜索）	搜索智能体	78.6	Kimi K2.5 (74.9)	+3.7
MathVision	视觉数学	88.6	Gemini-3 Pro (86.6)	+2.0
MathVista mini	视觉数学场景	90.3	Gemini-3 Pro (87.9)	+2.4
OCRBench	文字识别	93.1	Claude Opus 4.5 (85.8)	+7.3
OmniDocBench v1.5	文档理解	90.8	Gemini-3 Pro (88.5)	+2.3
AndroidWorld	手机端 GUI Agent	66.8	—	—
MAXIFE	多语言指令遵循	88.2	GPT-5.2 (88.4)≈	≈

指令遵循是本次最亮眼的领域——IFBench 和 MultiChallenge 双双刷新全球纪录，这背后是 GSPO + 四阶段后训练的直接回报。指令遵循能力在复杂 Agent 系统中决定模型的"服从性"，是工程落地中比 MMLU 更实用的指标。

多模态视觉的统治力也很强，OCRBench 93.1 比第二名领先超过 7 个百分点，文档处理类应用的选型几乎可以直接定了。

5.2 相对落后的项目

基准测试	Qwen3.5	领先者	差距
AIME 2026（竞赛数学）	91.3	GPT-5.2 (96.7)	-5.4
GPQA Diamond（博士级科学推理）	88.4	GPT-5.2 (92.4)	-4.0
SWE-bench Verified（软件工程）	76.4	Claude Opus 4.5 (80.9)	-4.5
TAU2-Bench（智能体对话）	86.7	Claude Opus 4.5 (91.6)	-4.9
HLE（顶级知识难题）	28.7	Gemini-3 Pro (37.5)	-8.8
OSWorld-Verified（PC 桌面控制）	62.2	Claude Opus 4.5 (66.3)	-4.1

顶级数学推理（AIME）和高难度科研问题（GPQA、HLE）是 GPT-5.2 的绝对强项，在这里有明显差距。软件工程（SWE-bench）方面 Claude Opus 4.5 也领先一截。

注：以上数据均来自阿里巴巴官方模型卡，独立第三方验证仍在进行中。

5.3 推理效率：最大亮点

对比基准	32K 上下文	256K 上下文
vs Qwen3-Max（前代旗舰，>1T参数）	8.6× 更快	19× 更快
vs Qwen3-235B（前代同级）	3.5× 更快	7.2× 更快

FP8 精度训练让推理时激活内存减少约 50%，部署显存降低约 60%。A100 单卡 4-bit 量化下，推理速度约 28 tokens/秒——对于 397B 的模型，这个数字相当可观。

5.4 性价比：价格仅为 Gemini-3 Pro 的 1/18

官方数据：Qwen3.5-Plus 价格仅为 Gemini-3 Pro 的 1/18，1M Token 上下文单次调用成本约 $0.18，国内阿里云百炼中国区定价约 0.8 元/百万 token（输入）。

以每天调用 10 亿 token 计算，使用 Qwen3.5-Plus 与 Gemini-3 Pro 的月度成本差异可达数十万人民币，这个价格差在企业级应用的商业模型中是决定性的。

6、架构创新：Gated Delta Networks 是什么

6.1 传统注意力的瓶颈

标准 Transformer 的注意力机制，本质上是让序列中每个 token 去"关注"所有其他 token，计算相似度（Q·K）后加权求和（×V）。时间与空间复杂度都是 O(n²)。

具体来说：到了 256K token，注意力矩阵大小是 256K × 256K ≈ 656 亿个元素，早已超出 GPU 显存上限。KV Cache 虽能避免重复计算，但 Cache 本身随序列线性增长——256K 上下文下光 KV Cache 就能吃掉数十 GB 显存，这是超长上下文推理贵、慢的根本原因，是算法复杂度决定的，而非工程实现不够好。

6.2 Gated Delta Networks 原理

Gated Delta Networks（arXiv:2412.06464，NVIDIA + MIT，NeurIPS 2025 获奖）的核心思路：维护一个固定大小的隐藏状态矩阵，把历史信息"压缩"进去，新 token 通过**增量更新（delta update）**修改这个状态。无论序列多长，隐藏状态大小不变，计算复杂度降至 O(n)。

它结合了两个机制：

门控衰减（Gated Decay，来自 Mamba2）：对历史状态施加可学习的衰减权重，由当前 token 内容动态决定，让模型选择性"遗忘"不重要的旧信息。

Delta 规则（增量更新）：新 token 不直接覆盖隐藏状态，而是计算自己与当前状态的"差值（delta）“，以增量方式更新——类似版本控制的差量 patch，而不是全量覆盖。两者结合，实现了"动态压缩记忆 + 选择性增量写入”。

此外，线性注意力消除了传统 Softmax 注意力的 attention sink 问题——传统注意力中少数特殊 token 会吸走大量注意力权重，导致其他 token 被忽略；线性注意力对超长序列的信息利用理论上更均匀。

6.3 3:1 混合比例的设计逻辑

线性注意力是有损压缩，对"流式理解"很好，但"精确检索"（在 100 万 token 中定位某个具体数字）有损失；标准全注意力精确但 O(n²) 成本不可承受。3:1 比例是大量消融实验得出的帕累托最优点：75% 线性层负责低成本连续建模，25% 全注意力层负责关键位置的精确校准，在大多数基准上已接近纯全注意力模型的性能，但推理速度提升 8-19 倍。

6.4 线性注意力技术谱系

要理解 Gated Delta Networks 为什么是当前最强的线性注意力方案，需要把它放在整个技术演进谱系中来看：

架构	提出时间	状态更新机制	遗忘机制	精确检索能力
RWKV-4	2023	Linear Attention（时序 WKV）	固定指数衰减	弱
RetNet	2023	递推矩阵乘法	固定 γ 衰减	中
Mamba/Mamba2	2023/2024	SSM 状态空间	选择性门控（输入依赖）	中
GLA（门控线性注意力）	2024	门控线性注意力	可学习门控	中
Gated Delta Networks	2024.12	Delta Rule + 门控衰减	动态门控 + 增量更新	较强

关键演进方向：从"固定衰减"→"选择性门控"→"动态门控 + 增量更新"，逐步提升了对历史信息的选择性保留能力。Gated Delta Networks 相比 Mamba2 的核心改进是：Mamba2 在状态更新时直接用新值替换部分旧信息（additive update），而 Gated Delta Networks 先计算"当前 value 与旧状态预测的差值"，再用这个差值更新状态（delta update）——这使得模型可以修正错误的历史"猜测"，而不仅仅是追加新信息，精确检索能力因此得到提升。

核心状态更新数学公式（精确版）：

给定输入 x t x_t xt，逐步计算：

β t = σ ( W β ⋅ x t ) （门控因子， σ 为 sigmoid，值域 [ 0 , 1 ] ） \beta_t = \sigma(W_\beta \cdot x_t) \quad \text{（门控因子，}\sigma \text{ 为 sigmoid，值域 } [0,1]\text{）} βt=σ(Wβ⋅xt)（门控因子，σ 为 sigmoid，值域 [0,1]）

k t = φ ( W k ⋅ x t ) , v t = W v ⋅ x t , q t = W q ⋅ x t k_t = \varphi(W_k \cdot x_t),\quad v_t = W_v \cdot x_t,\quad q_t = W_q \cdot x_t kt=φ(Wk⋅xt),vt=Wv⋅xt,qt=Wq⋅xt

δ t = β t ⊙ ( v t − S t − 1 ⋅ k t ) （delta：真实 value 与旧状态预测值之差） \delta_t = \beta_t \odot \bigl(v_t - S_{t-1} \cdot k_t\bigr) \quad \text{（delta：真实 value 与旧状态预测值之差）} δt=βt⊙(vt−St−1⋅kt)（delta：真实 value 与旧状态预测值之差）

S t = S t − 1 + δ t ⊗ k t （外积，增量写入状态矩阵） S_t = S_{t-1} + \delta_t \otimes k_t \quad \text{（外积，增量写入状态矩阵）} St=St−1+δt⊗kt（外积，增量写入状态矩阵）

o t = S t ⋅ q t （query 从状态矩阵中读取输出） o_t = S_t \cdot q_t \quad \text{（query 从状态矩阵中读取输出）} ot=St⋅qt（query 从状态矩阵中读取输出）

符号含义说明：

S t S_t St：状态矩阵（ d h e a d × d h e a d d_{head} \times d_{head} dhead×dhead 固定大小，是整个历史的"压缩记忆"）
β t \beta_t βt：门控衰减因子（ 0 ∼ 1 0 \sim 1 0∼1），由当前 token 内容动态决定，控制"遗忘多少历史信息"
S t − 1 ⋅ k t S_{t-1} \cdot k_t St−1⋅kt：用旧状态"预测"当前 key 对应的 value 应该是什么
δ t \delta_t δt：预测值与真实 value 之差，只有"预测错误的部分"才会写入状态（类比误差反向传播）
δ t ⊗ k t \delta_t \otimes k_t δt⊗kt：外积，将差值"写入"状态矩阵中 key 对应的方向

为什么这比纯替换（overwrite）更好？

纯替换式更新（S_t = α × S_{t-1} + v_t ⊗ k_t）会无差别地把新信息叠加进去，导致历史状态被逐渐"覆盖"。而 delta rule 的精妙之处在于：如果旧状态对当前 key 的预测已经很准确（S_{t-1} · k_t ≈ v_t），则 δ_t ≈ 0，状态几乎不变——模型自动识别出"这条信息已经在记忆里了，不需要重复写入"。只有真正的"新信息"（预测误差大的部分）才会被写入状态，使状态的信息密度更高，对精确检索更友好。

7、MoE 架构深度解析

7.1 Qwen3.5 MoE 精确规格

Qwen3.5-397B-A17B 的 MoE 配置是其高性价比的核心来源：

参数	数值	说明
总参数量	397B	3970 亿，包含所有专家权重
激活参数量	17B	每次前向传播约 4.3% 被激活
总层数	60 层	15 × [3×DeltaNet + 1×Attention]
每层专家总数	512 个	相比 Qwen3 的 128 个增加 4×
路由专家（激活）	10 个	Top-10 稀疏路由
共享专家（固定激活）	1 个	每次必然激活
总激活专家数	11 个	10 路由 + 1 共享
专家利用率	11/512 ≈ 2.1%	极度稀疏，内存效率极高
专家中间维度	1,024	每个专家的 FFN 宽度
隐藏维度	4,096	主干网络宽度

512 个专家中同时只有 11 个被激活，专家利用率仅 2.1%，但 397B 的"知识储量"完整保留。这是 MoE 架构的根本优势：以"存储成本"换"计算效率"。

7.2 共享专家的作用：为什么要重新引入

Qwen 系列的 MoE 设计有一段有趣的演进历史：

Qwen2.5-MoE（有共享专家） ↓ Qwen3-MoE（去掉共享专家，更极致的稀疏） ↓ Qwen3-Next（超稀疏 MoE 中间过渡版） ↓ Qwen3.5-MoE（重新引入共享专家，且专家数扩大到512）

Qwen3 曾经尝试去掉共享专家，追求更极致的稀疏性。但 Qwen3.5 又把它加回来了——这不是走回头路，而是实验数据说话：共享专家在大规模 MoE 训练中有三个关键价值：

1. 处理通用特征：共享专家每次都会激活，自然承担了"所有 token 都需要的基础处理"——语法理解、基本语义、格式识别等。路由专家则专注于领域特定知识（数学、代码、特定语言等）。这种分工让专家各司其职，效率更高。

2. 防止专家坍塌（Expert Collapse）：纯稀疏路由有一个风险——路由器倾向于反复选择同几个"好用"的专家，导致其他专家长期得不到训练，最终"坍塌"（权重停止更新，丧失专业能力）。共享专家的存在提供了稳定的梯度来源，使整个 MoE 系统的训练更稳定。

3. 表征连续性：跨越不同 token、不同领域的共享处理，有助于维持不同上下文间的语义连贯性，对长序列任务尤其重要。

值得对比的是，DeepSeek-V3 也采用了 shared + routed expert 的路线（1 个共享专家 + 256 个路由专家，每次激活 8 个路由专家），这与 Qwen3.5 的选择高度一致。两个独立研究团队走向了相同的设计，为这条路线提供了更强的实验支撑。

7.3 专家路由机制：Top-K 稀疏路由与负载均衡

每次前向传播时，路由器（Router）为每个 token 计算对所有专家的亲和度（affinity score），然后选择 Top-10 的路由专家参与计算：

scores_i = softmax(W_r · h_t) # 每个专家的路由得分 top_k_idx = argsort(scores_i)[-10:] # 选择得分最高的10个专家 output = sum(scores_i[j] * E_j(h_t) for j in top_k_idx) + E_shared(h_t)

负载均衡损失（Auxiliary Loss）：纯粹的 Top-K 路由存在"马太效应"——能力强的专家被频繁选择，弱的专家被冷落。为此，训练时加入负载均衡辅助损失：

L_aux = α × Σ_i (f_i × P_i) 其中 f_i 是专家 i 被实际选中的频率，P_i 是路由器对专家 i 的平均分配概率 α 是较小的系数（通常 0.01~0.001），避免影响主任务优化

这个损失鼓励所有专家被均匀使用，防止路由器"偷懒"只用少数几个专家。

7.4 极端 GQA（16:1 压缩比）的工程意义

Qwen3.5 的标准全注意力层（Gated Attention 层）采用了极端的分组查询注意力（GQA）配置：32 个 Q 头对应 2 个 KV 头，即 16:1 的压缩比。

这个设计的工程意义非常直接：

配置	Q 头数	KV 头数	KV Cache 大小（相对）	精度影响
MHA（多头注意力）	32	32	100%（基准）	最高
GQA 4:1	32	8	25%	微降
GQA 16:1（Qwen3.5）	32	2	6.25%	可接受

在 256K token 的超长上下文下，KV Cache 的大小本身就是主要瓶颈之一。16:1 的 GQA 将全注意力层的 KV Cache 压缩到原始多头注意力的 6.25%，极大降低了长上下文场景下的显存占用，同时通过实验验证精度损失在可接受范围内。这与 Gated Delta Networks 的固定大小隐藏状态一起，构成了 Qwen3.5 长上下文内存效率的双重保障。

8、行业意义：Agent 时代的新起点

2026 年 2 月，大模型界密集发生了几件事：

Kimi K2.5（月之暗面，2026年1月27日）：总参数 ~1T，采用 MLA（Multi-head Latent Attention），主打超稀疏激活
GLM-5（智谱 AI，2026年2月11日）：MLA + 动态稀疏注意力（DSA），激活参数约 17-22B
MiniMax M2.5（MiniMax，2026年2月11日）：标准 MHA + MoE，激活参数约 10B
Qwen3.5（阿里，2026年2月16日）：Gated DeltaNet + 全注意力 3:1 混合，激活参数 17B

四家，五天，无一例外将 Agentic 作为核心定位——这不是巧合，而是行业对大模型竞争方向产生了高度一致的判断：大模型竞争的重心，正在从聊天能力转向 Agent 能力。

在常规对话、知识问答等任务上，主流大模型的能力已高度趋同，差异化越来越难。真正能替代人类工作的形态——自主控制电脑界面、调用 API、写代码并自动 debug、在网上搜集信息生成报告——商业价值远比聊天机器人大得多。

注意力机制的路线分歧：

模型	注意力路线	激活参数	策略关键词
Qwen3.5	Gated DeltaNet 3:1 混合	17B	速度优先，超长上下文效率
Kimi K2.5	MLA（低秩压缩注意力）	~32B	极度压缩 KV Cache
GLM-5	MLA + 动态稀疏	~17-22B	精确稀疏，节约计算
MiniMax M2.5	标准 MHA	10B	简洁可靠，追求稳定

四家走出了完全不同的路线，说明"如何高效处理超长上下文"这个问题，整个行业还没有统一答案。Qwen3.5 押注线性注意力，是目前唯一大规模验证 Gated Delta Networks 工业化可行性的 400B 级模型——这本身就是一个重要的技术里程碑。从 AI 应用工程师视角看，我们需要开始认真评估模型的 Agent 能力：能否可靠调用工具、多步骤任务完成率、超长上下文中不"迷失"，这些在 2026 年以后的产品设计中会越来越重要。

9、总结

Qwen3.5 做对了什么？

架构上，Gated Delta Networks 的 3:1 混合设计是最有价值的技术贡献——第一次在 400B 级生产模型上实现了线性注意力的工业化落地，用 19 倍长上下文加速证明了这条路线。512 专家 + 重新引入共享专家的 MoE 设计，在专家稀疏度和训练稳定性之间找到了新的平衡。Early Fusion 多模态从根源上解决了模态割裂，OCR、文档理解、视觉数学的全球第一是有力证明。

哪里还有不足？

顶级数学推理（AIME 91.3 vs GPT-5.2 的 96.7）、高难度科研问题（HLE 28.7 vs Gemini-3 Pro 的 37.5）、软件工程（SWE-bench 76.4 vs Claude Opus 4.5 的 80.9）上仍有差距。技术报告尚未发布，基准数据来自官方自测，独立验证持续进行中。

对 AI 应用开发的实际落地价值：

应用场景	推荐理由
长文档处理	百万 token 上下文 + 19× 速度提升
多语言应用	201 种语言 + NOVA-63 全球第一
文档/OCR 应用	OCRBench 93.1、OmniDocBench 全球第一
GUI Agent 开发	AndroidWorld 66.8 全球第一
成本敏感型业务	价格仅为 Gemini-3 Pro 的 1/18

Qwen3.5 的除夕开源，交了一份技术上有真实突破的答卷。Gated Delta Networks 从 NeurIPS 论文到 400B 量产模型，只用了不到 3 个月，这个速度本身就说明了阿里工程团队的执行力。后续技术报告发布后，还会有更多架构细节值得深挖，我会持续跟踪更新。

数据来源：本文数据主要来源于 HuggingFace 官方模型卡、GitHub 官方仓库、Qwen 官方博客、Qwen3 技术报告 arXiv:2505.09388 及阿里云 Model Studio 文档，截至 2026 年 2 月 20 日。