除夕夜，国产顶流压轴上线，QWEN3.5多模态开源！

Ne0inhk

21 Mar 2026 — 18 min read

除夕夜，老金我刚咬了一口韭菜鸡蛋饺子。
手机"叮"的一声，弹出个通知。
老金我瞄了一眼——Qwen3.5，上线了。饺子差点没喷出来。

赶紧打开 chat.qwen.ai，两个模型直接挂在上面，可以用了。
阿里这帮人，大年三十放大招，连个发布会都没开，就这么安安静静地把东西甩出来了。

老金我放下筷子，扒了一晚上代码和文档，确认了一件事：
这不是小版本迭代，这是架构级别的重构。

先说结论：Qwen3.5到底升级了什么

根据老金我除夕夜扒的HuggingFace代码库、阿里云官网和chat.qwen.ai的实际体验，帮你梳理了3个核心变化。

第一个：原生多模态。
注意，是"原生"，不是"拼接"。
Qwen3之前的多模态方案是语言模型+视觉模块的两段式架构。
Qwen3.5直接把视觉感知和语言推理塞进了同一个训练框架。

阿里云官网对Qwen3.5-Plus的描述是：“原生多模态合一训练，混合架构双创新突破。”
简单说，以前是两个人配合干活，现在是一个人同时搞定。

第二个：Gated Delta Networks——线性注意力机制。
官方确认，Qwen3.5采用了一种叫 Gated Delta Networks 的线性注意力，跟传统的Gated Attention做了混合架构。
传统Transformer的注意力计算量跟序列长度的平方成正比，Gated Delta Networks把这个关系拉成线性。

翻译成人话：处理长文本的速度快了，显存占用也降了。
而且不是快了一点半点——官方实测数据：

在32k上下文长度下，Qwen3.5-397B-A17B的解码吞吐量是Qwen3-Max的 8.6倍
在256k上下文长度下，这个数字是 19.0倍
跟Qwen3-235B-A22B比，分别是3.5倍和7.2倍

老金我看到这个数据的时候饺子真喷出来了。

第三个：更大的模型家族。
目前在chat.qwen.ai上已经可以直接使用的有两个版本：

Qwen3.5-Plus（闭源API模型，通过阿里云百炼提供服务，支持 1M token上下文窗口）
Qwen3.5-397B-A17B（开源旗舰模型，3970亿参数只激活170亿）

跟之前HuggingFace代码里泄露的9B和35B-A3B相比，正式发布的模型规模大得多。
3970亿总参数，比Qwen3的旗舰235B-A22B直接翻了快一倍。

总参数量达3970亿，每次前向传播仅激活170亿参数，在保持能力的同时优化速度与成本。

语言与方言支持从119种扩展至201种，词表从15万扩大到25万，在多数语言上带来约10-60%的编码/解码效率提升。
简单说，同样的一段话，Qwen3.5能用更少的token表示，推理更快，API费用也更省。

线性注意力到底意味着什么

这块稍微展开说一下，因为这可能是Qwen3.5最关键的技术突破。
不懂技术的朋友别跳过，老金我用人话给你翻译。

传统Transformer用的是标准自注意力机制。
简单理解：AI在读一篇文章的时候，每读到一个字，都要回头看一遍前面所有的字。

如果文章有1万个字，每个字要跟其他9999个字各看一次。
字数越多，AI就越吃力——计算量是"字数的平方"级别的。

Qwen3.5用的Gated Delta Networks，核心思路是：用一个巧妙的数学方法，让AI不用每次都回头看所有内容。
结果就是：计算量从"字数的平方"降到"字数的倍数"。

听起来差别不大？我给你举个具体例子：

处理一个10分钟的视频：

传统方式：可能需要64G显存的显卡才能跑
Gated Delta Networks：16G显存就够了

这不是快了几个百分点的问题，是能不能跑起来的问题。
很多任务以前根本跑不动，现在可以了。

Qwen3.5更聪明的地方在于：它把Gated Delta Networks（线性注意力）和Gated Attention（标准注意力）做成了混合架构。
简单任务用线性注意力省资源，复杂任务自动切换到标准注意力保精度。
不是非此即彼，而是动态选择——什么场景用什么方案。

这也是为什么官方说的"Qwen3-Next架构"——更高稀疏度的MoE + 混合注意力 + 多token预测。

多token预测是什么意思？
传统模型一次只能"想"出一个字，Qwen3.5一次能预测多个字，生成速度又快了一截。

原生多模态为什么重要

之前的多模态模型大多是"拼接式"的。
打个比方：就像找了一个英语翻译和一个法语翻译，中间再安排一个协调员把两人的翻译对接起来。

先训一个语言模型（处理文字），再训一个视觉编码器（处理图片），最后用对齐层把两者连起来。
这种方式有个天然缺陷：视觉和语言的理解是割裂的。

Qwen3.5走的是另一条路——从预训练阶段就把文本、图像、视频放在一起训。
模型从一开始就"看"和"读"同时进行。
就像培养一个从小就双语环境长大的孩子，不需要翻译，直接理解。

阿里官方说法是"统一架构整合语言推理与视觉感知"。

这对普通用户来说意味着什么？
1、你发一张图给AI，它能真正"看懂"图里的内容，不容易出现"看到了但理解错了"的情况
2、一次对话就能同时处理图片+文字，不用分两步操作
3、成本更低——一个模型干两个模型的活，API费用直接砍半

阿里官网已经写了"效果、成本与多模态理解深度上同时超越Qwen3-Max与Qwen3-VL"。
如果这个说法成立，那Qwen3.5-Plus可能是目前性价比最高的多模态模型之一。

比如这样提问，它都能准确且快速的回答：

跑分亮了：Qwen3.5到底有多强

说技术架构大家可能没直觉，直接看跑分数据。
官方放了一大堆benchmark对比，老金我帮你提炼最关键的几个：

自然语言能力（对比GPT5.2、Claude 4.5 Opus、Gemini-3 Pro）：

几个重点：

1、指令遵循（IFBench 76.5）和多语言挑战（MultiChallenge 67.6）两项全场第一。
这意味着你给它的指令它听得更准，不容易跑偏。

2、搜索Agent能力（BrowseComp 78.6）也是第一。
联网搜索信息的能力很强。

3、多语言能力（NOVA-63 59.1）第一。
201种语言不是白支持的。

4、编程和数学还是GPT5.2和Claude强一些，但差距不大。

视觉语言能力（这才是Qwen3.5的杀手锏）：

乖乖，视觉能力这块Qwen3.5真的杀疯了：

MathVision 88.6——看图做数学题，全场最高
OCRBench 93.1——文字识别能力，直接碾压，比GPT5.2高出12个点
OmniDocBench 90.8——文档理解能力第一，对搞办公的朋友来说太实用了
HallusionBench 71.4——幻觉最少，看到什么说什么，不瞎编
AndroidWorld 66.8——能操作安卓手机，这个后面单独说

注意，这是一个3970亿参数只激活170亿的模型跑出来的成绩。
跟GPT5.2这种完整版闭源大模型对打还能在多个维度赢，开源模型能做到这个水平，老金我服了。

Visual Agent：AI能操作你的手机和电脑了

这是老金我觉得最炸裂的功能，但很多报道都没重点说。
Qwen3.5可以作为视觉智能体，自主操作手机和电脑完成日常任务。

什么意思？你告诉它"帮我把这个Excel表格的缺失行补全"，它真的能：
1、打开Excel文件
2、识别出哪些行和列需要补全
3、自动填写数据
4、保存文件

全程不需要你动手，AI自己操作界面完成。
官方展示了好几个演示：

手机端：适配主流App，你说"帮我发条朋友圈"，它能自己操作完成
电脑端：处理跨应用的数据整理、多步骤流程自动化

AndroidWorld跑分66.8，目前公开数据里最高的。
这不是ChatGPT那种"帮你写个脚本自己跑"。
Qwen3.5是真的在操作GUI界面，像人一样点击、输入、滑动。

对于不会编程的普通用户来说，这个能力可能比会写代码更有用。

空间智能和视觉编程

除了操作手机电脑，Qwen3.5在"看"这件事上还有两个特别的能力。

空间智能：
借助对图像像素级位置信息的建模，Qwen3.5能做到：

物体计数——图里有几个苹果，它能数准
相对位置判断——电话亭在黄色货车的左边还是右边
驾驶场景理解——看行车记录仪画面，分析为什么没在路口停车

官方展示了一个驾驶场景的例子：给它一段行车记录仪视频截帧，它能分析出"信号灯在我接近停车线时变黄，此时距离太近无法安全停车，所以选择通过路口"。
这个能力在自动驾驶和机器人导航场景里非常关键。

视觉编程：
更酷的是，Qwen3.5能把看到的东西变成代码：

手绘界面草图 → 结构清晰的前端代码
游戏视频 → 逻辑还原代码
长视频 → 自动提炼为结构化网页

你甚至可以让他看视频手搓游戏。

如果对你有帮助，记得关注一波~

春节档：AI圈的神仙打架

Qwen3.5选在除夕夜发布，这个时间点太狠了。
这个春节档，至少还有3个重磅选手要登场。

1、DeepSeek V4——最受期待的选手，V3已经证明了DeepSeek的实力
2、GLM-5——智谱的新旗舰，之前Pony Alpha的表现已经让人刮目相看
3、MiniMax 2.2——M2.5编程能力追平Claude，2.2值得关注

老金我觉得今年春节档的竞争格局跟去年完全不同。
去年是DeepSeek V3一家独大。
今年是四五个玩家同时出牌。

对普通用户来说，这其实是好事。
竞争越激烈，开源模型的能力提升越快，API价格越便宜。

MoE架构：小身材大能量

Qwen3.5-397B-A17B这个版本号值得单独说一下。
397B是总参数量，A17B是激活参数量——3970亿参数里每次只用170亿。

什么意思？打个比方：
这就像一个公司有3970个员工，但每次处理一个任务只需要170个人同时干活。
其他人"待命"，等需要的时候再上。

这就是MoE（Mixture of Experts，混合专家）架构的核心思路。
模型里有很多"专家"模块，每个token只激活其中几个。
好处是：模型容量大（知识多），但推理成本低（算得快）。

回顾一下Qwen3的数据：

Qwen3-235B-A22B（2350亿参数，激活220亿）在编程、数学、推理上已经能跟DeepSeek-R1、GPT-5正面对决。
Qwen3-30B-A3B在SWE-Bench上拿到69.6分，价格性能比吊打一众付费模型。

Qwen3.5-397B-A17B直接把总参数量拉到3970亿，是Qwen3旗舰的1.7倍。
但激活参数只有170亿，比Qwen3旗舰的220亿还少。

翻译成人话：知识储备更多了，但跑起来反而更省资源。
再加上原生多模态和线性注意力的加持，老金我认为这是2026年上半年最值得关注的开源模型之一。

现在就能用：3步上手Qwen3.5

说了这么多技术细节，老金我讲讲实际怎么用。
好消息是：你现在就可以直接体验Qwen3.5，不用等。

第1步：打开 chat.qwen.ai
浏览器直接输入 chat.qwen.ai，这是阿里官方的对话平台。
注册一个账号就能用，支持手机号和邮箱注册。
不需要科学上网，国内直接访问。

第2步：选模型和模式
页面顶部有个模型选择器，点开会看到两个选项：

Qwen3.5-Plus：推荐日常使用，速度快，响应快
Qwen3.5-397B-A17B：旗舰模型，适合复杂任务（推理、写代码、分析长文档）

不知道选哪个？选Qwen3.5-Plus就行，够用了。
需要更强的推理能力再切397B。

选好模型后，还能选三种思考模式：

自动（auto）：自适应思考，该深入就深入，该快就快，推荐大多数场景使用
思考（thinking）：遇到难题用这个，模型会进行深度推理，一步步想清楚再回答
快速（fast）：简单问题用这个，不消耗思考token，回答又快又省

第3步：直接对话
跟ChatGPT的用法一模一样——输入框打字，回车发送。
支持的功能包括：

纯文字对话（问答、写作、翻译、编程）
上传图片让它分析（产品截图、文档照片、手写笔记）
上传文件让它总结（PDF、Word、代码文件）
联网搜索（点击搜索按钮，它会帮你查最新信息）

完全免费，目前没有次数限制。

对，你没看错，免费的。
这也是阿里开源生态的一贯打法。

开发者进阶用法

如果你是开发者，除了网页版还有更多玩法。

场景1：API调用（1M上下文窗口）
阿里云百炼已经上线Qwen3.5-Plus的API，支持100万token的上下文窗口。
100万token是什么概念？大概相当于一次性读完一本750页的英文小说还绰绰有余。

而且API完全兼容OpenAI格式，切换成本几乎为零：

from openai import OpenAI client = OpenAI( api_key="your-api-key", base_url="https://dashscope.aliyuncs.com/compatible-mode/v1", ) completion = client.chat.completions.create( model="qwen3.5-plus", messages=[{"role": "user", "content": "介绍一下Qwen3.5"}], extra_body={ "enable_thinking": True, "enable_search": False }, stream=True )

两个关键参数：

enable_thinking：开启推理模式，让模型先想再答，适合复杂问题
enable_search：开启联网搜索和Code Interpreter

场景2：Vibe Coding（跟编程工具集成）
官方明确说了，百炼API可以跟这些编程工具无缝集成：

Qwen Code——阿里自己的编程助手
Claude Code——Anthropic的CLI工具
Cline——VS Code插件
OpenClaw——开源Agent框架
OpenCode——开源编程工具

也就是说，你在Claude Code里把模型切成Qwen3.5-Plus，一样能用。
价格比GPT-5便宜10倍以上，对于日常编程来说性价比拉满。

场景3：多模态应用
原生多模态意味着你可以用一个模型搞定：

图片内容识别+文案生成
视频内容理解+摘要提取
图文混排文档的解析和问答
GUI自动化——让AI帮你操作软件界面

以前这些任务要调3-4个不同的API，现在一个就够了。

场景4：本地部署
Qwen3.5-397B-A17B虽然总参数3970亿，但激活参数只有170亿。
等开源权重发布后，用Ollama或vLLM部署，消费级显卡也有可能跑起来。
后续如果有更小的版本（比如9B），16G显存的显卡就能流畅运行。

老金的判断

Qwen3.5除夕夜在chat.qwen.ai正式上线了。
老金我说说自己的看法。

看好的点：

原生多模态是正确的方向，拼接式迟早要被淘汰
Gated Delta Networks解决了长序列的核心瓶颈，8.6倍/19倍的吞吐量提升不是闹着玩的
MoE架构在成本和性能之间找到了平衡点——3970亿参数只激活170亿，这个比例很激进
视觉能力真的强——OCR、文档理解、数学视觉多项第一
Visual Agent能操作手机电脑，这是AI从"回答问题"到"替你干活"的关键一步
阿里在开源这条路上一直很坚定，Qwen3的开源质量有目共睹
完全免费使用，对普通用户来说门槛为零

值得关注的未来方向：
官方博客最后提了三个方向，老金我觉得每个都很重要：
1、跨会话持久记忆——现在的AI每次对话都是"失忆"状态，未来能记住你之前聊过什么
2、具身接口——不只是操作手机电脑屏幕，未来可能控制机器人在真实世界干活
3、自我改进机制——AI能自己变得更好，不需要人类手动更新

阿里原话是：“将当前以任务为边界的助手升级为可持续、可信任的伙伴。”

老金我的态度是谨慎乐观。
架构升级的方向是对的，除夕夜放这个大招，阿里是真的有底气。

跑分数据已经出来了，视觉能力多项碾压GPT5.2和Claude 4.5 Opus，你现在就可以去chat.qwen.ai亲自试试。

有一点可以确定：2026年的开源大模型，竞争只会越来越激烈。
对于开发者和普通用户来说，这是最好的时代。

每次我都想提醒一下，这不是凡尔赛，是希望有想法的人勇敢冲。
我不会代码，我英语也不好，但是我做出来了很多东西，在文末的开源知识库可见。
我真心希望能影响更多的人来尝试新的技巧，迎接新的时代。

谢谢你读我的文章。
如果觉得不错，随手点个赞、在看、转发三连吧🙂
如果想第一时间收到推送，也可以给我个星标⭐～谢谢你看我的文章。

开源知识库地址：
https://tffyvtlai4.feishu.cn/wiki/OhQ8wqntFihcI1kWVDlcNdpznFf