前言
2025 年,阿里 Qwen 团队正式发布 Qwen3.5 模型,为国产大模型阵营增添重要力量。
Qwen3.5 是目前全球领先的原生多模态开源大模型,不仅支持图片和视频的多模态输入,在对话、推理、编程、Agent 构建等方面也表现优异。其综合能力已达到 GPT-5.2、Gemini 3.0 Pro 的平均水平,推理能力尤为突出。例如那道曾让无数模型'翻车'的逻辑题——'50 米距离该走路还是开车去洗车',Qwen3.5 也能轻松作答。
在 Vibe Coding 方面,凭借国内最强开源多模态模型的实力,Qwen3.5 可借助 Remotion Skills 一键生成视频;在 Agentic Coding 方面,其强悍的 Agent 性能即使用户使用最简略的需求描述,它也能自动调用各类工具,完成复杂应用开发。视觉推理能力相较 Qwen3-VL 大幅提升,连'鲨鱼骑马 = 沙琪玛'这种梗图都能精准识别。
此外,Qwen3.5 能够将视觉与代码能力结合,一步到位将视频内容'转译'为一个可交互的网页。可以说,Qwen3.5 的发布不仅填补了国内多模态开源大模型的空白,也为未来多模态 Agent 的开发奠定了坚实基础。
一、Qwen3.5-397B-A17B 核心特性
1.1 预训练:能力、效率与通用性的全面升级
Qwen3.5 在预训练阶段从三个维度进行了深度优化:
- 能力(Power) :在更大规模的视觉 - 文本语料上训练,并加强中英文、多语言、STEM 与推理数据的比重,采用更严格的过滤策略。最终,Qwen3.5-397B-A17B 与参数量超过 1T 的 Qwen3-Max-Base 表现相当,实现了跨代持平。
- 效率(Efficiency) :基于 Qwen3-Next 架构,引入更高稀疏度的 MoE、Gated DeltaNet + Gated Attention 混合注意力机制,配合稳定性优化与多 token 预测。在 32k/256k 上下文长度下,Qwen3.5-397B-A17B 的解码吞吐量分别达到 Qwen3-Max 的 8.6 倍/19.0 倍,以及 Qwen3-235B-A22B 的 3.5 倍/7.2 倍,性能不变但效率大幅提升。
- 通用性(Versatility) :通过早期文本 - 视觉融合与扩展的视觉/STEM/视频数据,实现了原生多模态能力,在相近规模下显著优于 Qwen3-VL。多语言支持从 119 种增至 201 种语言/方言;词表从 15 万扩展至 25 万,在多数语言上带来了约 10%~60% 的编码/解码效率提升。


