阿里开源Qwen3.5:混合线性注意力让推理速度提升19倍,这个架构选择值得深挖.md

阿里开源Qwen3.5:混合线性注意力让推理速度提升19倍,这个架构选择值得深挖.md

文章目录

🍃作者介绍:25届双非本科网络工程专业,阿里云专家博主,深耕 AI 原理 / 应用开发 / 产品设计。前几年深耕Java技术体系,现专注把 AI 能力落地到实际产品与业务场景。
🦅个人主页:@逐梦苍穹
🐼GitHub主页:https://github.com/XZL-CODE
✈ 您的一键三连,是我创作的最大动力🌹
⚠️ 阅读说明:截至本文发布时,Qwen3.5 官方技术报告尚未公开(GitHub 标注 paper coming soon)。本文技术分析均基于官方模型卡、HuggingFace 发布博客及官方博客,部分架构细节为基于已公开信息的推断,待官方论文发布后以正式论文为准。

1、前言

2026 年 2 月 16 日,农历除夕,阿里巴巴通义千问团队选了一个极具仪式感的时间节点,悄悄将 Qwen3.5 推上了 HuggingFace。没有铺天盖地的发布会,没有提前的营销预热,就这么把一个 397B 参数的开源旗舰模型扔出来,顺手附赠 Apache 2.0 许可证——这波"春节开源礼"让全球 AI 社区在年关时分炸了锅,发布后 3 天 HuggingFace 下载量突破 10.5 万次,OpenRouter 平台单日请求量达 25 万次

之所以说它值得认真解读,不只是因为参数量大或跑分亮眼,而是因为 Qwen3.5 在架构层面做出了一个真正不同寻常的选择:将**线性注意力机制(Gated Delta Networks)**以 3:1 的比例嵌入到 MoE 模型中,并在此基础上实现了原生多模态融合和百万 Token 上下文。这不是小幅调参,是一次系统性的架构重构。值得一提的是,截至本文撰写时(2026年2月20日),Qwen3.5 的 arXiv 技术报告尚未发布(GitHub 标注"Paper — coming soon"),本文所有技术细节均来自官方模型卡、HuggingFace 博客及官方发布博客。


2、Qwen3.5 是什么

2.1 一句话定位

Qwen3.5 是阿里巴巴通义千问团队发布的新一代原生多模态智能体基础模型,官方标题 “Towards Native Multimodal Agents” 已经说明了核心目标——不是做更强的聊天机器人,而是为 AI 智能体(Agent)时代提供一套从底层架构就经过重新设计的基础设施。

首发版本 Qwen3.5-397B-A17B 总参数 397B,每次前向传播仅激活 17B 参数(约 4.3% 的激活率),既保留了大模型的"知识储量",又把推理成本压到中等规模模型的水准。

2.2 与 Qwen3 的关键区别

维度Qwen3(2025年4月)Qwen3.5(2026年2月)变化
注意力机制标准 Softmax + GQAGated DeltaNet 3:1 混合质变
MoE 专家总数128 个512 个+300%
共享专家(1个固定激活)新增
多模态支持独立 Qwen3-VL 部署原生早期融合质变
支持语言数82 种201 种+145%
词表大小~150K~250K+67%
原生上下文最长 128K262K
可扩展上下文1,010,000 tokens全新
32K 解码吞吐量基准 1×8.6×显著
256K 解码吞吐量基准 1×19×质变
RL 训练规模有限规模百万级智能体环境数量级提升
推理成本基准降低 60%显著

从这张表可以直观看出:Qwen3 → Qwen3.5 从注意力机制到训练范式都发生了系统性变化,绝非一次 minor update。

2.3 发布时间线

理解 Qwen3.5 的架构选择,需要先看清楚它是怎么"走过来"的:

日期事件
2025年4月28日Qwen3 系列发布(0.6B–235B,纯语言模型,119种语言)
2025年7月Qwen3-235B-A22B 长上下文增强版(256K)
2025年9月10日Qwen3-Next(超稀疏 MoE + 混合注意力,Qwen3.5 的架构预演版)
2025年9月22日Qwen3-Omni(端到端文本/图像/音频/视频多模态)
2026年1月27日qwen3-max-2026-01-23 快照(集成思考+工具调用)
2026年2月16日Qwen3.5-397B-A17B 开源 + qwen3.5-plus API 上线
2026年2月(进行中)技术报告正式版(arXiv,coming soon)

关键节点:2025年9月的 Qwen3-Next 是整个 Qwen3.5 故事的"序章"——混合注意力的核心设计(Gated Delta Networks + 全注意力 3:1)在那时已经完成了工程可行性验证,Qwen3.5 是把它推向 397B 生产规模的正式版本。这条技术路线的"孵化期"长达 5 个月。


3、快速上手

3.1 API 调用(阿里云百炼)

Qwen3.5-Plus 已在阿里云百炼(DashScope / Model Studio)上线,完整兼容 OpenAI 格式,上下文窗口达 100 万 tokens,定价 $0.4/1M 输入 token,$2.4/1M 输出 token。

思考模式(Thinking Mode)——适合复杂推理、代码生成、深度分析:

from openai import OpenAI client = OpenAI( api_key="YOUR_DASHSCOPE_API_KEY", base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",)# 思考模式:模型先生成 <think>...</think> 推理链,再输出最终答案 response = client.chat.completions.create( model="qwen3.5-plus", messages=[{"role":"user","content":"用 Python 实现一个 LRU Cache,要求线程安全,并分析时间复杂度。"}], extra_body={"enable_thinking":True},# 开启思考模式 temperature=0.6, top_p=0.95,)# 打印思考过程ifhasattr(response.choices[0].message,'reasoning_content'):print("=== 思考过程 ===")print(response.choices[0].message.reasoning_content)print("=== 最终回答 ===")print(response.choices[0].message.content)

非思考模式(Non-Thinking Mode)——适合对话、简单问答、快速响应场景:

from openai import OpenAI client = OpenAI( api_key="YOUR_DASHSCOPE_API_KEY", base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",) response = client.chat.completions.create( model="qwen3.5-plus", messages=[{"role":"system","content":"You are a helpful assistant."},{"role":"user","content":"帮我用一句话解释什么是 MoE 架构。"}], extra_body={"enable_thinking":False},# 关闭思考模式,直接输出 temperature=0.7, top_p=0.8, presence_penalty=1.5,# 非思考模式建议设置,防止重复输出)print(response.choices[0].message.content)
获取 API Key:登录 阿里云百炼控制台 → API Key 管理。qwen3.5-plus 为滚动更新版,qwen3.5-plus-2026-02-15 为快照版,生产环境建议固定使用快照版本,避免更新带来的行为变化。

3.2 开源版本部署

开源版 Qwen3.5-397B-A17B 建议 8 张 A100 80GB(或同等显存),FP8 量化版可将显存需求降低约 50%:

# SGLang(官方推荐,推理效率最优) python -m sglang.launch_server \ --model-path Qwen/Qwen3.5-397B-A17B \ --port 8000\ --tp-size 8\ --mem-fraction-static 0.8\ --context-length 262144\ --reasoning-parser qwen3 # vLLM(通用方案) vllm serve Qwen/Qwen3.5-397B-A17B \ --port 8000\ --tensor-parallel-size 8\ --max-model-len 262144\ --reasoning-parser qwen3 

消费级硬件可使用 llama.cpp + GGUF 量化版(由 Unsloth 维护,支持视觉功能),Apple Silicon 用户可通过 MLX/mlx-vlm 运行。

3.3 推荐采样参数

Qwen 团队给出了两种模式的官方推荐参数。非思考模式的 presence_penalty=1.5 尤为关键,不加这个参数模型容易出现重复输出:

参数思考模式非思考模式
temperature0.60.7
top_p0.950.8
top_k2020
min_p0.00.0
presence_penalty0.01.5

两种模式的切换通过 API 参数 enable_thinking 控制,比 Qwen3 时代的 /think/nothink 软开关更标准化,方便程序化控制。

4、五大核心特性详解

4.1 混合注意力架构:线性 + 全注意力 3:1

这是整个 Qwen3.5 最值得重点讲透的技术创新。

在这里插入图片描述

Qwen3.5 的 60 层网络被拆分成 15 个重复单元,每个单元包含 4 个注意力块,按 3:1 的固定比例排列:

15 × [ Gated DeltaNet → MoE ← 线性注意力(O(n) 复杂度) Gated DeltaNet → MoE ← 线性注意力 Gated DeltaNet → MoE ← 线性注意力 Gated Attention → MoE ← 标准全注意力(O(n²) 复杂度) ] 

**为什么是 3:1?**75% 的层用线性注意力处理"流式理解",以极低成本完成上下文连续建模;25% 的层保留标准全注意力,在关键位置校准精度、执行精确检索。两种机制互补,是架构团队大量消融实验后得出的帕累托最优点。

结果数字:相比前代 Qwen3-Max,32K 上下文推理速度提升 8.6 倍,256K 上下文提升 19 倍,部署显存降低约 60%。这是架构层面带来的结构性优势,不是工程调优。

详细层参数

  • Gated DeltaNet 层:64 头(V)/ 16 头(QK),头维度 128
  • Gated Attention 层:32 头(Q)/ 2 头(KV),头维度 256(16:1 极端 GQA 压缩)

4.2 原生多模态:不再是"插件"

在这里插入图片描述

过去的 VLM 通常是:先训练语言模型,再拼接视觉编码器,通过适配层(projector)注入图像 token。这种"插件式"多模态存在天然的模态割裂——两个模块对世界的表征从根源上就不在同一套语义空间里。

Qwen3.5 采用早期融合(Early Fusion Training):从预训练第一天起,就在混合了文本、图像、视频 token 的数据上进行联合训练。技术上使用 DeepStack Vision Transformer

  • Conv3d 进行时序 patch 嵌入,把视频当作第三维度,原生捕获时序动态
  • 融合视觉编码器多层特征,同时保留细粒度纹理和高层语义
  • 多模态训练吞吐量接近纯文本的 100%,几乎零额外开销

效果验证:MathVision 全球第一(88.6),OCRBench 全球第一(93.1),OmniDocBench 文档理解全球第一(90.8)。

4.3 百万 Token 超长上下文

原生上下文 262,144 tokens(约 26 万),通过 YaRN 扩展至 1,010,000 tokens(约 101 万),API 版(qwen3.5-plus)直接支持 100 万 token。

位置编码方面,RoPE 基础频率从标准 10,000 提升至 1,000,000(提升 100 倍),配合 YaRN 实现平滑外推,解决长序列外推时的位置编码失效问题。得益于线性注意力,处理 256K token 时速度比原来快 19 倍,成本降低 60%——超长上下文终于成为可在生产环境大规模使用的实际选项。

4.4 201 种语言支持

词表从约 150K 扩展到 250K(248,320 padded),支持语言从 82 种扩展到 201 种语言和方言。更大的词表让稀有语言不再需要被拆分成大量 subword token,降低低资源语言的 token 碎片化程度。

NOVA-63 基准(62 种低资源语言):Qwen3.5 以 59.1 全球第一,GPT-5.2 54.6,Gemini-3 Pro 56.7。

4.5 百万智能体环境 RL 训练

在这里插入图片描述

这是 Qwen3.5 后训练的核心升级,理解它需要先看清楚整个四阶段训练流程的演进逻辑。

4.5.1 四阶段后训练流程

Qwen 系列的后训练框架最早在 Qwen3 技术报告(arXiv:2505.09388)中系统性提出,Qwen3.5 在此基础上进行了规模升级:

Stage 1:长链式思维冷启动(Long-CoT Cold Start)

在高质量长链推理数据上进行监督微调(SFT),激活模型的逐步推理能力。这一阶段的关键是数据质量而非数量——需要精心构造多步骤、有完整推理链的样本,让模型学会"把解题过程写出来"的基本范式。如果跳过这一步直接进行 RL,模型往往产生格式混乱的短响应,而不是期望的思维链。

Stage 2:推理强化学习(Reasoning RL)

在数学、编程、逻辑推理等有明确验证器(verifier)的任务上进行强化学习。这类任务的关键优势是奖励信号是客观的——答案对或错,不需要人工标注 reward model,大幅降低了 RL 的成本和偏差。Qwen3 使用 GRPO(Group Relative Policy Optimization),Qwen3.5 升级到 GSPO(Group Sequence Policy Optimization),下文详述。

Stage 3:混合模式融合(Thinking Mode Fusion)

把"深度思考模式"和"快速直答模式"统一到同一个模型中。技术实现上是把两种模式的训练数据混合,配合 enable_thinking 参数控制输出格式:开启时生成 <think>...</think> 推理链再输出答案,关闭时直接输出。

这个阶段解决的核心矛盾是:Stage 2 训练出的模型在思维链任务上很强,但在快速对话上因为强制生成 CoT 而响应过慢;通过 Mode Fusion,两种能力可以共存于同一权重中,由调用方按需选择。

Stage 4:通用强化学习(General RL)

在更广泛的任务分布上进行最终对齐,涵盖指令遵循、安全性、格式规范、工具调用等。这一阶段的奖励模型更复杂(需要综合评估多个维度),但经过前三阶段的预热,模型已经具备足够的推理稳定性,可以处理更模糊的奖励信号。

Qwen3.5 的创新在于把 Stage 4 扩展到百万级智能体环境:训练时并行展开 100 万个 Agent 任务,任务复杂度从简单到复杂逐步递增,让模型在海量环境中学习真实世界的适应性。

4.5.2 GSPO:从 Token 级到序列级的 Policy Optimization

GRPO 的问题

GRPO(Group Relative Policy Optimization)是 DeepSeek 团队提出并被 Qwen3 沿用的算法。其核心思路是:对同一问题采样多个候选输出,以组内平均奖励为基线,计算每个输出相对于基线的优势函数 A,然后用 PPO 风格的 clipped objective 更新策略:

L G R P O = E [ min ⁡ ( r t o k e n ⋅ A ,  clip ( r t o k e n ,   1 − ε ,   1 + ε ) ⋅ A ) ] L_{GRPO} = \mathbb{E}\left[\min\left(r_{token} \cdot A,\ \text{clip}(r_{token},\ 1-\varepsilon,\ 1+\varepsilon) \cdot A\right)\right] LGRPO​=E[min(rtoken​⋅A, clip(rtoken​, 1−ε, 1+ε)⋅A)]

其中 r t o k e n = π θ ( a t ∣ s t ) π r e f ( a t ∣ s t ) r_{token} = \dfrac{\pi_\theta(a_t \mid s_t)}{\pi_{ref}(a_t \mid s_t)} rtoken​=πref​(at​∣st​)πθ​(at​∣st​)​ 为 token 级别的 policy ratio

问题在于:奖励(reward)是序列级别的(一个输出对不对,只有在整个序列生成完后才能判断),但 policy ratio 是 token 级别的(每个 token 单独计算 π_θ / π_ref)。这种不匹配导致:

  1. 方差过高:序列内不同 token 的 policy ratio 差异很大,但它们共享同一个序列级奖励,梯度估计噪声大
  2. 信用分配问题:哪些 token 真正对最终答案的正确性有贡献,GRPO 无法区分
  3. 训练不稳定:在长序列(尤其是超长思维链)中,token 级 ratio 累积后可能超出 clip 范围,导致梯度爆炸

GSPO 的解法

GSPO(Group Sequence Policy Optimization)的核心改动是:直接在完整序列层面计算 policy ratio,而不是逐 token 计算:

L G S P O = E [ min ⁡ ( r s e q ⋅ A ,  clip ( r s e q ,   1 − ε ,   1 + ε ) ⋅ A ) ] L_{GSPO} = \mathbb{E}\left[\min\left(r_{seq} \cdot A,\ \text{clip}(r_{seq},\ 1-\varepsilon,\ 1+\varepsilon) \cdot A\right)\right] LGSPO​=E[min(rseq​⋅A, clip(rseq​, 1−ε, 1+ε)⋅A)]

其中:

r s e q = π θ ( o u t p u t ∣ i n p u t ) π r e f ( o u t p u t ∣ i n p u t ) = ∏ t = 1 T π θ ( a t ∣ i n p u t ,   a < t ) π r e f ( a t ∣ i n p u t ,   a < t ) r_{seq} = \frac{\pi_\theta(output \mid input)}{\pi_{ref}(output \mid input)} = \prod_{t=1}^{T} \frac{\pi_\theta(a_t \mid input,\ a_{<t})}{\pi_{ref}(a_t \mid input,\ a_{<t})} rseq​=πref​(output∣input)πθ​(output∣input)​=t=1∏T​πref​(at​∣input, a<t​)πθ​(at​∣input, a<t​)​

A = R − mean ( R ) std ( R ) , ε  为 clip 超参数(通常  0.1 ∼ 0.2 ) A = \frac{R - \text{mean}(R)}{\text{std}(R)}, \quad \varepsilon \text{ 为 clip 超参数(通常 } 0.1 \sim 0.2\text{)} A=std(R)R−mean(R)​,ε 为 clip 超参数(通常 0.1∼0.2)

关键区别:r_seq 是整个序列的联合概率比值(所有 token 的 policy ratio 连乘),而不是每个 token 单独的 ratio。这样做的好处:

  • 奖励与优化目标对齐:序列级奖励 R 对应序列级 policy ratio r_seq,梯度方向与实际目标一致
  • 方差更低:clip 操作在序列级别生效,避免单个 token ratio 异常值影响整体更新
  • 信用分配隐式改善:整个序列作为一个整体被 reward,token 之间的协同贡献被隐式考虑

实验结果显示,GSPO 相比 GRPO 在复杂推理任务上训练更稳定,收敛更快,尤其在超长思维链(2000+ token 的 CoT)场景下优势明显。

4.5.3 异步 RL 基础设施

传统 RL 训练是同步模式:生成一批样本 → 评估奖励 → 更新参数 → 串行等待。Qwen3.5 引入异步框架,将训练(参数更新)与推理(样本生成)工作负载解耦,持续迭代优化:

  • Speculative Decoding(投机解码):加速训练时的样本生成,降低 RL 训练中推理成本占比
  • Rollout Replay(轨迹回放):复用历史样本,提升数据效率,减少对实时推理的依赖
  • Multi-turn Rollout Locking:保证多轮对话 RL 的状态一致性,解决多轮场景下轨迹截断问题
  • 动态负载均衡:快速故障恢复,集群利用率接近 100%

效果验证:Terminal-Bench 2.0(代理终端任务)得分 52.5,相比 Qwen3-Max-Thinking 的 22.5,提升幅度 133%


5、性能表现:哪里强,哪里弱

性能评测是最容易让人迷失的部分——各厂都挑对自己有利的基准展示。下面尽量把完整图景呈现出来,包括 Qwen3.5 的明显弱项。

5.1 夺冠项目

在这里插入图片描述

以下是 Qwen3.5-397B 在各类基准上全球第一的项目(对比:GPT-5.2、Claude Opus 4.5、Gemini-3 Pro、Kimi K2.5):

基准测试类别Qwen3.5第二名优势
IFBench指令遵循76.5GPT-5.2 (75.4)+1.1
MultiChallenge指令遵循67.6Gemini-3 Pro (64.2)+3.4
NOVA-63多语言(低资源)59.1Gemini-3 Pro (56.7)+2.4
BrowseComp(英文搜索)搜索智能体78.6Kimi K2.5 (74.9)+3.7
MathVision视觉数学88.6Gemini-3 Pro (86.6)+2.0
MathVista mini视觉数学场景90.3Gemini-3 Pro (87.9)+2.4
OCRBench文字识别93.1Claude Opus 4.5 (85.8)+7.3
OmniDocBench v1.5文档理解90.8Gemini-3 Pro (88.5)+2.3
AndroidWorld手机端 GUI Agent66.8
MAXIFE多语言指令遵循88.2GPT-5.2 (88.4)≈

指令遵循是本次最亮眼的领域——IFBench 和 MultiChallenge 双双刷新全球纪录,这背后是 GSPO + 四阶段后训练的直接回报。指令遵循能力在复杂 Agent 系统中决定模型的"服从性",是工程落地中比 MMLU 更实用的指标。

多模态视觉的统治力也很强,OCRBench 93.1 比第二名领先超过 7 个百分点,文档处理类应用的选型几乎可以直接定了。

5.2 相对落后的项目

基准测试Qwen3.5领先者差距
AIME 2026(竞赛数学)91.3GPT-5.2 (96.7)-5.4
GPQA Diamond(博士级科学推理)88.4GPT-5.2 (92.4)-4.0
SWE-bench Verified(软件工程)76.4Claude Opus 4.5 (80.9)-4.5
TAU2-Bench(智能体对话)86.7Claude Opus 4.5 (91.6)-4.9
HLE(顶级知识难题)28.7Gemini-3 Pro (37.5)-8.8
OSWorld-Verified(PC 桌面控制)62.2Claude Opus 4.5 (66.3)-4.1

顶级数学推理(AIME)和高难度科研问题(GPQA、HLE)是 GPT-5.2 的绝对强项,在这里有明显差距。软件工程(SWE-bench)方面 Claude Opus 4.5 也领先一截。

:以上数据均来自阿里巴巴官方模型卡,独立第三方验证仍在进行中。

5.3 推理效率:最大亮点

对比基准32K 上下文256K 上下文
vs Qwen3-Max(前代旗舰,>1T参数)8.6× 更快19× 更快
vs Qwen3-235B(前代同级)3.5× 更快7.2× 更快

FP8 精度训练让推理时激活内存减少约 50%,部署显存降低约 60%。A100 单卡 4-bit 量化下,推理速度约 28 tokens/秒——对于 397B 的模型,这个数字相当可观。

5.4 性价比:价格仅为 Gemini-3 Pro 的 1/18

在这里插入图片描述

官方数据:Qwen3.5-Plus 价格仅为 Gemini-3 Pro 的 1/18,1M Token 上下文单次调用成本约 $0.18,国内阿里云百炼中国区定价约 0.8 元/百万 token(输入)。

以每天调用 10 亿 token 计算,使用 Qwen3.5-Plus 与 Gemini-3 Pro 的月度成本差异可达数十万人民币,这个价格差在企业级应用的商业模型中是决定性的。

6、架构创新:Gated Delta Networks 是什么

6.1 传统注意力的瓶颈

标准 Transformer 的注意力机制,本质上是让序列中每个 token 去"关注"所有其他 token,计算相似度(Q·K)后加权求和(×V)。时间与空间复杂度都是 O(n²)

具体来说:到了 256K token,注意力矩阵大小是 256K × 256K ≈ 656 亿个元素,早已超出 GPU 显存上限。KV Cache 虽能避免重复计算,但 Cache 本身随序列线性增长——256K 上下文下光 KV Cache 就能吃掉数十 GB 显存,这是超长上下文推理贵、慢的根本原因,是算法复杂度决定的,而非工程实现不够好。

6.2 Gated Delta Networks 原理

在这里插入图片描述

Gated Delta Networks(arXiv:2412.06464,NVIDIA + MIT,NeurIPS 2025 获奖)的核心思路:维护一个固定大小的隐藏状态矩阵,把历史信息"压缩"进去,新 token 通过**增量更新(delta update)**修改这个状态。无论序列多长,隐藏状态大小不变,计算复杂度降至 O(n)

它结合了两个机制:

门控衰减(Gated Decay,来自 Mamba2):对历史状态施加可学习的衰减权重,由当前 token 内容动态决定,让模型选择性"遗忘"不重要的旧信息。

Delta 规则(增量更新):新 token 不直接覆盖隐藏状态,而是计算自己与当前状态的"差值(delta)“,以增量方式更新——类似版本控制的差量 patch,而不是全量覆盖。两者结合,实现了"动态压缩记忆 + 选择性增量写入”。

此外,线性注意力消除了传统 Softmax 注意力的 attention sink 问题——传统注意力中少数特殊 token 会吸走大量注意力权重,导致其他 token 被忽略;线性注意力对超长序列的信息利用理论上更均匀。

6.3 3:1 混合比例的设计逻辑

线性注意力是有损压缩,对"流式理解"很好,但"精确检索"(在 100 万 token 中定位某个具体数字)有损失;标准全注意力精确但 O(n²) 成本不可承受。3:1 比例是大量消融实验得出的帕累托最优点:75% 线性层负责低成本连续建模,25% 全注意力层负责关键位置的精确校准,在大多数基准上已接近纯全注意力模型的性能,但推理速度提升 8-19 倍。

6.4 线性注意力技术谱系

要理解 Gated Delta Networks 为什么是当前最强的线性注意力方案,需要把它放在整个技术演进谱系中来看:

架构提出时间状态更新机制遗忘机制精确检索能力
RWKV-42023Linear Attention(时序 WKV)固定指数衰减
RetNet2023递推矩阵乘法固定 γ 衰减
Mamba/Mamba22023/2024SSM 状态空间选择性门控(输入依赖)
GLA(门控线性注意力)2024门控线性注意力可学习门控
Gated Delta Networks2024.12Delta Rule + 门控衰减动态门控 + 增量更新较强

关键演进方向:从"固定衰减"→"选择性门控"→"动态门控 + 增量更新",逐步提升了对历史信息的选择性保留能力。Gated Delta Networks 相比 Mamba2 的核心改进是:Mamba2 在状态更新时直接用新值替换部分旧信息(additive update),而 Gated Delta Networks 先计算"当前 value 与旧状态预测的差值",再用这个差值更新状态(delta update)——这使得模型可以修正错误的历史"猜测",而不仅仅是追加新信息,精确检索能力因此得到提升。

核心状态更新数学公式(精确版):

给定输入 x t x_t xt​,逐步计算:

β t = σ ( W β ⋅ x t ) (门控因子, σ  为 sigmoid,值域  [ 0 , 1 ] ) \beta_t = \sigma(W_\beta \cdot x_t) \quad \text{(门控因子,}\sigma \text{ 为 sigmoid,值域 } [0,1]\text{)} βt​=σ(Wβ​⋅xt​)(门控因子,σ 为 sigmoid,值域 [0,1])

k t = φ ( W k ⋅ x t ) , v t = W v ⋅ x t , q t = W q ⋅ x t k_t = \varphi(W_k \cdot x_t),\quad v_t = W_v \cdot x_t,\quad q_t = W_q \cdot x_t kt​=φ(Wk​⋅xt​),vt​=Wv​⋅xt​,qt​=Wq​⋅xt​

δ t = β t ⊙ ( v t − S t − 1 ⋅ k t ) (delta:真实 value 与旧状态预测值之差) \delta_t = \beta_t \odot \bigl(v_t - S_{t-1} \cdot k_t\bigr) \quad \text{(delta:真实 value 与旧状态预测值之差)} δt​=βt​⊙(vt​−St−1​⋅kt​)(delta:真实 value 与旧状态预测值之差)

S t = S t − 1 + δ t ⊗ k t (外积,增量写入状态矩阵) S_t = S_{t-1} + \delta_t \otimes k_t \quad \text{(外积,增量写入状态矩阵)} St​=St−1​+δt​⊗kt​(外积,增量写入状态矩阵)

o t = S t ⋅ q t (query 从状态矩阵中读取输出) o_t = S_t \cdot q_t \quad \text{(query 从状态矩阵中读取输出)} ot​=St​⋅qt​(query 从状态矩阵中读取输出)

符号含义说明:

  • S t S_t St​:状态矩阵( d h e a d × d h e a d d_{head} \times d_{head} dhead​×dhead​ 固定大小,是整个历史的"压缩记忆")
  • β t \beta_t βt​:门控衰减因子( 0 ∼ 1 0 \sim 1 0∼1),由当前 token 内容动态决定,控制"遗忘多少历史信息"
  • S t − 1 ⋅ k t S_{t-1} \cdot k_t St−1​⋅kt​:用旧状态"预测"当前 key 对应的 value 应该是什么
  • δ t \delta_t δt​:预测值与真实 value 之差,只有"预测错误的部分"才会写入状态(类比误差反向传播)
  • δ t ⊗ k t \delta_t \otimes k_t δt​⊗kt​:外积,将差值"写入"状态矩阵中 key 对应的方向

为什么这比纯替换(overwrite)更好?

纯替换式更新(S_t = α × S_{t-1} + v_t ⊗ k_t)会无差别地把新信息叠加进去,导致历史状态被逐渐"覆盖"。而 delta rule 的精妙之处在于:如果旧状态对当前 key 的预测已经很准确(S_{t-1} · k_t ≈ v_t),则 δ_t ≈ 0,状态几乎不变——模型自动识别出"这条信息已经在记忆里了,不需要重复写入"。只有真正的"新信息"(预测误差大的部分)才会被写入状态,使状态的信息密度更高,对精确检索更友好。


7、MoE 架构深度解析

7.1 Qwen3.5 MoE 精确规格

Qwen3.5-397B-A17B 的 MoE 配置是其高性价比的核心来源:

参数数值说明
总参数量397B3970 亿,包含所有专家权重
激活参数量17B每次前向传播约 4.3% 被激活
总层数60 层15 × [3×DeltaNet + 1×Attention]
每层专家总数512 个相比 Qwen3 的 128 个增加 4×
路由专家(激活)10 个Top-10 稀疏路由
共享专家(固定激活)1 个每次必然激活
总激活专家数11 个10 路由 + 1 共享
专家利用率11/512 ≈ 2.1%极度稀疏,内存效率极高
专家中间维度1,024每个专家的 FFN 宽度
隐藏维度4,096主干网络宽度

512 个专家中同时只有 11 个被激活,专家利用率仅 2.1%,但 397B 的"知识储量"完整保留。这是 MoE 架构的根本优势:以"存储成本"换"计算效率"。

7.2 共享专家的作用:为什么要重新引入

Qwen 系列的 MoE 设计有一段有趣的演进历史:

Qwen2.5-MoE(有共享专家) ↓ Qwen3-MoE(去掉共享专家,更极致的稀疏) ↓ Qwen3-Next(超稀疏 MoE 中间过渡版) ↓ Qwen3.5-MoE(重新引入共享专家,且专家数扩大到512) 

Qwen3 曾经尝试去掉共享专家,追求更极致的稀疏性。但 Qwen3.5 又把它加回来了——这不是走回头路,而是实验数据说话:共享专家在大规模 MoE 训练中有三个关键价值:

1. 处理通用特征:共享专家每次都会激活,自然承担了"所有 token 都需要的基础处理"——语法理解、基本语义、格式识别等。路由专家则专注于领域特定知识(数学、代码、特定语言等)。这种分工让专家各司其职,效率更高。

2. 防止专家坍塌(Expert Collapse):纯稀疏路由有一个风险——路由器倾向于反复选择同几个"好用"的专家,导致其他专家长期得不到训练,最终"坍塌"(权重停止更新,丧失专业能力)。共享专家的存在提供了稳定的梯度来源,使整个 MoE 系统的训练更稳定。

3. 表征连续性:跨越不同 token、不同领域的共享处理,有助于维持不同上下文间的语义连贯性,对长序列任务尤其重要。

值得对比的是,DeepSeek-V3 也采用了 shared + routed expert 的路线(1 个共享专家 + 256 个路由专家,每次激活 8 个路由专家),这与 Qwen3.5 的选择高度一致。两个独立研究团队走向了相同的设计,为这条路线提供了更强的实验支撑。

7.3 专家路由机制:Top-K 稀疏路由与负载均衡

每次前向传播时,路由器(Router)为每个 token 计算对所有专家的亲和度(affinity score),然后选择 Top-10 的路由专家参与计算:

scores_i = softmax(W_r · h_t) # 每个专家的路由得分 top_k_idx = argsort(scores_i)[-10:] # 选择得分最高的10个专家 output = sum(scores_i[j] * E_j(h_t) for j in top_k_idx) + E_shared(h_t) 

负载均衡损失(Auxiliary Loss):纯粹的 Top-K 路由存在"马太效应"——能力强的专家被频繁选择,弱的专家被冷落。为此,训练时加入负载均衡辅助损失:

L_aux = α × Σ_i (f_i × P_i) 其中 f_i 是专家 i 被实际选中的频率,P_i 是路由器对专家 i 的平均分配概率 α 是较小的系数(通常 0.01~0.001),避免影响主任务优化 

这个损失鼓励所有专家被均匀使用,防止路由器"偷懒"只用少数几个专家。

7.4 极端 GQA(16:1 压缩比)的工程意义

Qwen3.5 的标准全注意力层(Gated Attention 层)采用了极端的分组查询注意力(GQA)配置:32 个 Q 头对应 2 个 KV 头,即 16:1 的压缩比

这个设计的工程意义非常直接:

配置Q 头数KV 头数KV Cache 大小(相对)精度影响
MHA(多头注意力)3232100%(基准)最高
GQA 4:132825%微降
GQA 16:1(Qwen3.5)3226.25%可接受

在 256K token 的超长上下文下,KV Cache 的大小本身就是主要瓶颈之一。16:1 的 GQA 将全注意力层的 KV Cache 压缩到原始多头注意力的 6.25%,极大降低了长上下文场景下的显存占用,同时通过实验验证精度损失在可接受范围内。这与 Gated Delta Networks 的固定大小隐藏状态一起,构成了 Qwen3.5 长上下文内存效率的双重保障。


8、行业意义:Agent 时代的新起点

在这里插入图片描述

2026 年 2 月,大模型界密集发生了几件事:

  • Kimi K2.5(月之暗面,2026年1月27日):总参数 ~1T,采用 MLA(Multi-head Latent Attention),主打超稀疏激活
  • GLM-5(智谱 AI,2026年2月11日):MLA + 动态稀疏注意力(DSA),激活参数约 17-22B
  • MiniMax M2.5(MiniMax,2026年2月11日):标准 MHA + MoE,激活参数约 10B
  • Qwen3.5(阿里,2026年2月16日):Gated DeltaNet + 全注意力 3:1 混合,激活参数 17B

四家,五天,无一例外将 Agentic 作为核心定位——这不是巧合,而是行业对大模型竞争方向产生了高度一致的判断:大模型竞争的重心,正在从聊天能力转向 Agent 能力。

在常规对话、知识问答等任务上,主流大模型的能力已高度趋同,差异化越来越难。真正能替代人类工作的形态——自主控制电脑界面、调用 API、写代码并自动 debug、在网上搜集信息生成报告——商业价值远比聊天机器人大得多。

注意力机制的路线分歧:

模型注意力路线激活参数策略关键词
Qwen3.5Gated DeltaNet 3:1 混合17B速度优先,超长上下文效率
Kimi K2.5MLA(低秩压缩注意力)~32B极度压缩 KV Cache
GLM-5MLA + 动态稀疏~17-22B精确稀疏,节约计算
MiniMax M2.5标准 MHA10B简洁可靠,追求稳定
在这里插入图片描述

四家走出了完全不同的路线,说明"如何高效处理超长上下文"这个问题,整个行业还没有统一答案。Qwen3.5 押注线性注意力,是目前唯一大规模验证 Gated Delta Networks 工业化可行性的 400B 级模型——这本身就是一个重要的技术里程碑。从 AI 应用工程师视角看,我们需要开始认真评估模型的 Agent 能力:能否可靠调用工具、多步骤任务完成率、超长上下文中不"迷失",这些在 2026 年以后的产品设计中会越来越重要。


9、总结

Qwen3.5 做对了什么?

架构上,Gated Delta Networks 的 3:1 混合设计是最有价值的技术贡献——第一次在 400B 级生产模型上实现了线性注意力的工业化落地,用 19 倍长上下文加速证明了这条路线。512 专家 + 重新引入共享专家的 MoE 设计,在专家稀疏度和训练稳定性之间找到了新的平衡。Early Fusion 多模态从根源上解决了模态割裂,OCR、文档理解、视觉数学的全球第一是有力证明。

哪里还有不足?

顶级数学推理(AIME 91.3 vs GPT-5.2 的 96.7)、高难度科研问题(HLE 28.7 vs Gemini-3 Pro 的 37.5)、软件工程(SWE-bench 76.4 vs Claude Opus 4.5 的 80.9)上仍有差距。技术报告尚未发布,基准数据来自官方自测,独立验证持续进行中。

对 AI 应用开发的实际落地价值:

应用场景推荐理由
长文档处理百万 token 上下文 + 19× 速度提升
多语言应用201 种语言 + NOVA-63 全球第一
文档/OCR 应用OCRBench 93.1、OmniDocBench 全球第一
GUI Agent 开发AndroidWorld 66.8 全球第一
成本敏感型业务价格仅为 Gemini-3 Pro 的 1/18

Qwen3.5 的除夕开源,交了一份技术上有真实突破的答卷。Gated Delta Networks 从 NeurIPS 论文到 400B 量产模型,只用了不到 3 个月,这个速度本身就说明了阿里工程团队的执行力。后续技术报告发布后,还会有更多架构细节值得深挖,我会持续跟踪更新。


数据来源:本文数据主要来源于 HuggingFace 官方模型卡GitHub 官方仓库Qwen 官方博客Qwen3 技术报告 arXiv:2505.09388阿里云 Model Studio 文档,截至 2026 年 2 月 20 日。

Read more

Dify平台集成Qwen3-VL实现低代码构建视觉智能应用

Dify平台集成Qwen3-VL实现低代码构建视觉智能应用 在今天,越来越多的企业和开发者希望将AI能力快速落地到实际业务中——尤其是具备“看懂图像”这一类人类直觉式能力的视觉智能系统。然而传统多模态AI开发流程复杂:从数据标注、模型选型、环境部署到前后端联调,动辄需要数周甚至数月时间,对团队技术栈要求极高。 有没有可能跳过这些繁琐步骤,用类似搭积木的方式,“拖一拖、配一配”,就能让大模型读懂图片并生成可运行代码?答案是肯定的。Dify + Qwen3-VL 的组合正在让这种设想成为现实。 通义千问最新发布的 Qwen3-VL 是目前Qwen系列中最强大的视觉-语言模型,不仅能够理解图文混合输入,还能完成OCR识别、GUI元素分析、空间关系推理,甚至直接输出HTML/CSS/JS前端代码。而 Dify 作为一款开源低代码AI应用平台,提供了可视化工作流编排与模型集成能力。两者的结合,使得无需编写一行Python或JavaScript代码,也能构建出功能完整的视觉智能应用。 这背后的关键,并不只是“把一个模型接进另一个平台”这么简单。它真正解决的是:如何让前沿多模态能力走出实验室

By Ne0inhk

OpenClaw龙虾机器人实战:基于Rust+Tauri构建带“安全沙箱”的跨平台清理Skill

摘要: 当 AI 走出聊天框,拿起系统的“ root 权限”,它是你的“数字管家”还是潜伏的“特洛伊木马”?2026年初,由 Peter Steinberger 打造的 OpenClaw(龙虾机器人) 横扫全球开源社区,GitHub 星标数迅速突破 18 万。它不再是单纯的 Chatbot,而是能通过 WhatsApp、Telegram 直接操控你电脑的执行型智能体。 然而,权力的下放伴随着巨大的风险——Meta 高管因授权 OpenClaw 访问邮箱而导致收件箱被批量清空的惨案犹在眼前。本文将基于 OpenClaw 架构,使用 Rust + Tauri 技术栈,开发一款跨平台临时文件清理 Skill。我们将重点解决两大核心难题: 1. 系统级深度操作:如何用 Rust 优雅地调用

By Ne0inhk
5种生成模型(VAE、GAN、AR、Flow 和 Diffusion)的对比梳理 + 易懂讲解 + 代码实现

5种生成模型(VAE、GAN、AR、Flow 和 Diffusion)的对比梳理 + 易懂讲解 + 代码实现

目录 1 变分自编码器(VAE) 1.1 概念 1.2 训练损失 1.3 VAE 的实现 2 生成对抗网络(GAN) 2.1 概念 2.2 训练损失 a. 判别器的损失函数 b. 生成器的损失函数 c. 对抗训练的动态过程 2.3 GAN 的实现 3 自回归模型(AR) 3.1 概念 3.2 训练过程 a.核心思想: 用历史预测未来 b. Transformer 的损失计算:交叉熵监督预测 c.

By Ne0inhk
【火】Spatial Joy 2025 全球 AR&AI 赛事:开发者要的资源、玩法、避坑攻略都在这

【火】Spatial Joy 2025 全球 AR&AI 赛事:开发者要的资源、玩法、避坑攻略都在这

Spatial Joy 2025 Rokid乐奇 全球 AR&AI 开发大赛 值不值得参加?不少参加过连续两届 Rokid乐奇 赛事的老兵,纷纷表示非常值得参加。 先说最实在的——奖金。 AR赛道分为应用和游戏两个赛道,金奖各20万人民币,而且是现金!交完税全是你自己的!这还不够,AR赛道总共设了27个奖项,据我打听到的往年数据,能正常跑进初赛的作品大概就60-70个,这意味着获奖比例相当高。 20万就封顶了吗?远远没有!亚马孙科技给使用Kiro并获奖的开发者,在原奖金基础上再加20%现金奖励! AI赛道同样设置了27个奖项,奖金从1万到5万不等,主要以智能体开发为主,支持市面上所有智能体平台的适配。也就是说,你之前做的智能体微调一下就能参赛! 更重要的是,现在正是智能眼镜行业爆发前夜。据我观察,未来2-3年将是空间计算应用落地的关键窗口期,提前布局的开发者将占据绝对先发优势。 好了,重磅消息说完,下面是我为大家整理的详细参赛指南: 先给开发者交个底:这赛事值得花时间吗? 对技术人来说,一场赛事值不值得冲,就看三点:资源给不给力、

By Ne0inhk