Qwen3.5 核心特性详解：原生多模态与推理能力解析

前言

2025 年 DeepSeek-R1 发布后，国内大模型厂商持续发力。今年除夕夜，阿里 Qwen 团队正式开源了 Qwen3.5 模型，为国产大模型阵营增添了重要力量。

Qwen3.5 是目前全球最强的原生多模态开源大模型，支持图片和视频的多模态输入，在对话、推理、编程及 Agent 构建等方面表现均衡。其综合能力对标 GPT-5.2 和 Gemini 3.0 Pro，尤其在逻辑推理上表现突出。例如面对'50 米距离该走路还是开车去洗车'这类逻辑题，Qwen3.5 能给出准确回答。

在 Vibe Coding 方面，Qwen3.5 可借助 Remotion Skills 一键生成视频；在 Agentic Coding 方面，即便需求描述简略，它也能自动调用工具完成复杂应用开发。视觉推理能力相比 Qwen3-VL 大幅提升，能够精准识别复杂的梗图或架构图。

更值得关注的是，Qwen3.5 能将视觉与代码能力结合，一步将视频内容转译为可交互的网页。这不仅填补了国内多模态开源模型的空白，也为未来多模态 Agent 的开发奠定了基础。

一、Qwen3.5-397B-A17B 核心特性

1.1 预训练：能力、效率与通用性的全面升级

Qwen3.5 在预训练阶段从三个维度进行了深度优化：

能力（Power）：在更大规模的视觉 - 文本语料上训练，加强中英文、多语言、STEM 与推理数据的比重，采用更严格的过滤策略。最终，Qwen3.5-397B-A17B 与参数量超过 1T 的 Qwen3-Max-Base 表现相当，实现了跨代持平。
效率（Efficiency）：基于 Qwen3-Next 架构，引入更高稀疏度的 MoE、Gated DeltaNet + Gated Attention 混合注意力机制，配合稳定性优化与多 token 预测。在 32k/256k 上下文长度下，解码吞吐量分别达到 Qwen3-Max 的 8.6 倍/19.0 倍，以及 Qwen3-235B-A22B 的 3.5 倍/7.2 倍，性能不变但效率大幅提升。
通用性（Versatility）：通过早期文本 - 视觉融合与扩展的视觉/STEM/视频数据，实现了原生多模态能力，在相近规模下显著优于 Qwen3-VL。多语言支持从 119 种增至 201 种语言/方言；词表从 15 万扩展至 25 万，在多数语言上带来了约 10%~60% 的编码/解码效率提升。

Qwen3.5 核心特性详解：原生多模态与推理能力解析

前言

一、Qwen3.5-397B-A17B 核心特性

1.1 预训练：能力、效率与通用性的全面升级

更多推荐文章

相关免费在线工具

1.2 异构基础设施：高效训练与强化学习的系统支撑

二、Qwen3.5-397B-A17B 性能详解

2.1 模型架构与部署

2.2 推理模式与上下文

2.3 性能对比与亮点

2.4 开源与 API

三、总结

更多推荐文章

相关免费在线工具

Qwen3.5 核心特性详解：原生多模态与推理能力解析

前言

一、Qwen3.5-397B-A17B 核心特性

1.1 预训练：能力、效率与通用性的全面升级

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

1.2 异构基础设施：高效训练与强化学习的系统支撑

二、Qwen3.5-397B-A17B 性能详解

2.1 模型架构与部署

2.2 推理模式与上下文

2.3 性能对比与亮点

2.4 开源与 API

三、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具