除夕夜，阿里炸场！Qwen3.5 开源，397B 吊打自家万亿旗舰

Ne0inhk

21 Mar 2026 — 6 min read

除夕夜，阿里上了一盘硬菜。

Qwen3.5-397B-A17B。Qwen3.5 系列的第一个开源模型。

3970 亿总参数，每次推理只激活 170 亿。

Apache 2.0 协议，完全免费。

阿里之前最强的旗舰模型 Qwen3-Max，万亿参数级别，闭源。

而这个新开源的 3970 亿参数模型，基座性能和 Qwen3-Max 持平。

用不到一半的参数，打平了万亿参数的上一代。

在 32K 上下文下，Qwen3.5 的解码吞吐量是 Qwen3-Max 的 8.6 倍。256K，这个数字是 19 倍。

老旗舰被新模型按在地上摩擦。

除夕发模型，阿里在想什么

2026 年的春节，已经不是春节了。

是国内 AI 行业的军备竞赛。

字节 2 月 14 号发布 豆包 2.0，智谱 2 月 11 号推出 GLM-5，MiniMax 紧跟着上了 M2.5，连一向低调的 DeepSeek 也更新了版本。

所有人都在抢春节档。

营销更是热闹。

豆包赞助春晚买曝光，元宝砸 10 亿搞裂变，千问投 30 亿搞免单。

但在砸钱抢人之外，阿里还憋了一手技术牌。

Qwen3.5 架构，要这么看

Qwen3.5 最值得聊的，是它的架构。

上一代 Qwen3-Max 的哲学是「大就是好」，万亿参数硬堆。

Qwen3.5 换了个思路，参数还是多，但每次只请最合适的那一批出来干活。

MoE 不是新概念，上一代也是。

但 Qwen3.5 把稀疏度拉得更极端了，激活比例从 9.4% 降到 4.3%。

说人话，用更少的人干活，效果还更好。

注意力机制也很有意思。

Qwen3.5 用了一种叫 Gated DeltaNet 的线性注意力，和传统注意力按 3:1 混合。

传统注意力有个老毛病，计算量随上下文长度平方增长。

32K token 还撑得住，256K 就不行了。

Gated DeltaNet 的计算量只随上下文线性增长。

这就是 19 倍速度差的来源之一。数学计算更快了。

但天下没有免费的午餐。线性注意力会损失一部分全局上下文建模能力，所以千问团队保留了 25% 的传统注意力层来兜底。

这个 3:1 的混合策略不是阿里独创的，月之暗面的 Kimi Linear 也用了类似比例。

「原生多模态」终于来了

早期的多模态模型，大多是先训练纯文本模型，再把视觉模块焊上去。

就像在轿车上装个拖车钩。能用，但总觉得哪里不对。

现在 AI 模型基本都在往原生多模态转，谷歌、OpenAI 都是。

Qwen3.5 也走的这条路，从预训练开始就让文本和图像一起学。

这个模型从出生那天起，就是同时看文字和图片长大的。

从基准测试得分就能看出来。

MMMU-Pro 视觉推理 79.0，OmniDocBench 文档识别 90.8，Video-MME 视频理解 87.5，基本都是 TOP 水准。

「原生多模态」在 Agent 场景更实用。

它能看着手机屏幕帮你操作 APP，能把手绘草图变成前端代码，能看 2 小时的视频再提炼成结构化网页。

上下文窗口 1M（百万）tokens，一次喂进去一整部电影都行。

Qwen3.5 跑分，要这么看

先说能打的。

IFBench 指令遵循 76.5，最高。

BrowseComp 浏览器搜索智能体 78.6，第二名 Claude Opus 4.5 只有 67.8。

OmniDocBench 文档识别 90.8，同样全场第一。

没赢的也有。

SWE-bench Verified 代码能力，Qwen3.5 是 76.4，Claude Opus 4.5 拿了 80.9，GPT-5.2 是 80.0，还有差距。

Terminal-Bench 终端编程 52.5，Claude Opus 4.5 59.3，差距更明显。

GPQA Diamond 研究生级推理 88.4，GPT-5.2 是 92.4，Gemini 3 Pro 91.9。

注意，还有个细节。

阿里官方对比的竞品模型是 GPT-5.2、Claude Opus 4.5、Gemini 3 Pro。

但 OpenAI 在 2 月 5 号已经发了 GPT-5.3-Codex，Terminal-Bench 2.0 拿到了惊人的 77.3%。

Anthropic 同一天发布 Claude Opus 4.6，GPQA Diamond 91.3%，ARC-AGI 2 从 37.6% 飙到 68.8%。

阿里比的，不是最新的对手。

Qwen3.5 的评测周期可能在这两个模型发布之前就完成了。

Qwen3.5 怎么用

最简单的方式，打开 Qwen Chat chat.qwen.ai，直接用。

完全免费。

三种模式可选，自动、思考、快速。

API 调用，阿里云百炼选 Qwen3.5-Plus，默认 1M 上下文窗口。

价格在这，相当可以。

也可以本地部署，开源权重在 Hugging Face 和魔搭都有。

除夕夜，别人在发红包，阿里在发模型。

这份年货，可能比任何红包都值钱。

我是木易，Top2 + 美国 Top10 CS 硕，现在是 AI 产品经理。

关注「AI信息Gap」，让 AI 成为你的外挂。

AI 编程工具选型：Copilot、Cursor、Codex 核心差异

【如文章引起大家共鸣，请“点赞”以及“转发”，以支持继续创作，谢谢大家！】朋友们大家好！今天咱们不聊那些虚头巴脑的，直接来点实在的——AI编程工具选型，Copilot、Cursor、Codex这仨到底咋选？别急，我这就用最接地气的方式，给你唠唠它们的“脾气秉性”，保证你听完就能上手挑！先说Copilot，这哥们儿可是“代码补全界的扛把子”！它就像你身边的“代码小秘书”，你敲代码时，它就在旁边默默观察，你刚敲个“for”，它立马给你补上“(int i=0;i<n;i++)”，那叫一个快！而且，它还支持多IDE，VS Code、JetBrains啥的，都能无缝对接。不过呢，Copilot也有个“小毛病”，就是它更擅长“补全”，对于复杂的代码重构或者项目级理解，就有点力不从心了。

AIGC-Fooocus部署实践：从本地手动配置到云端一键启用的深度剖析

摘要：本文旨在为人工智能生成内容（AIGC）领域的爱好者和开发者提供一份详尽的Fooocus部署指南。Fooocus作为一款基于Gradio的开源图像生成软件，凭借其简化的操作和高质量的输出，受到了广泛关注。我们将通过两种截然不同的部署路径——传统的本地手动环境配置与现代化的云平台一键部署——来全面探索Fooocus的落地过程。本文将深入剖析手动部署中的每一个步骤、每一条命令及其背后的技术逻辑，详细记录可能遇到的环境冲突与解决方案，并将其与云端部署的流畅体验进行客观对比，为读者在不同场景下选择最合适的部署策略提供坚实的技术参考。第一章：引言——Fooocus与AIGC部署的挑战随着Stable Diffusion等底层模型的开源，AIGC技术，特别是文生图领域，迎来了爆发式的增长。各种应用和WebUI层出不穷，极大地降低了普通用户接触和使用前沿AI模型的门槛。在众多工具中，由lllyasviel（ControlNet的作者）开发的Fooocus，以其独特的哲学脱颖而出。Fooocus的设计理念是“化繁为简”，它在保留Stable Diffusion XL（SDXL）强大能力的

无需编码！Llama-Factory可视化界面让大模型微调更简单

无需编码！Llama-Factory可视化界面让大模型微调更简单在大语言模型（LLM）加速落地的今天，越来越多企业希望拥有一个能理解自身业务、回答专业问题的“专属AI助手”。然而现实是：大多数团队卡在了第一步——微调。写不完的训练脚本、配不好的环境依赖、动不动就OOM的显存……这些技术门槛把非算法背景的开发者挡在门外。有没有一种方式，能让普通人像使用Photoshop一样，“点几下”就把一个通用大模型变成懂医疗、懂法律、懂客服的垂直领域专家？答案正是 Llama-Factory。这个开源项目正在悄悄改变游戏规则。它不像其他框架只解决某个环节的问题，而是直接提供了一套从数据上传到模型导出的完整流水线，并通过一个简洁的Web界面，实现了真正意义上的“零代码微调”。让复杂流程变得像填表一样简单想象这样一个场景：你是一家健康科技公司的产品经理，手里有一批医患对话记录，想训练一个能自动回答常见疾病咨询的AI助手。过去你需要协调算法工程师排期，等两周才能拿到第一个测试版本；而现在，你可以自己登录服务器，在浏览器里完成全部操作。打开 Llama-Factory 的 WebU

在昇腾NPU上跑Llama 2模型：一次完整的性能测试与实战通关指南

目录 * 在昇腾NPU上跑Llama 2模型：一次完整的性能测试与实战通关指南 * 引言：从“为什么选择昇腾”开始 * 第一幕：环境搭建——好的开始是成功的一半 * 1.1 GitCode Notebook 创建“避坑指南” * 1.2 环境验证：“Hello, NPU!” * 第二幕：模型部署——从下载到运行的“荆棘之路” * 2.1 安装依赖与模型下载 * 2.2 核心部署代码与“坑”的化解 * 第三幕：性能测试——揭开昇腾NPU的真实面纱 * 3.1 严谨的性能测试脚本 * 3.2 测试结果与分析 * 第四幕：性能优化——让Llama跑得更快 * 4.1 使用昇腾原生大模型框架 * 4.