除夕夜,阿里炸场!Qwen3.5 开源,397B 吊打自家万亿旗舰

除夕夜,阿里炸场!Qwen3.5 开源,397B 吊打自家万亿旗舰

除夕夜,阿里上了一盘硬菜。

Qwen3.5-397B-A17BQwen3.5 系列的第一个开源模型。

3970 亿总参数,每次推理只激活 170 亿。

Apache 2.0 协议,完全免费。

阿里之前最强的旗舰模型 Qwen3-Max,万亿参数级别,闭源。

而这个新开源的 3970 亿参数模型,基座性能和 Qwen3-Max 持平。

用不到一半的参数,打平了万亿参数的上一代。

在 32K 上下文下,Qwen3.5 的解码吞吐量是 Qwen3-Max 的 8.6 倍。256K,这个数字是 19 倍。

老旗舰被新模型按在地上摩擦。


除夕发模型,阿里在想什么

2026 年的春节,已经不是春节了。

是国内 AI 行业的军备竞赛。

字节 2 月 14 号发布 豆包 2.0,智谱 2 月 11 号推出 GLM-5,MiniMax 紧跟着上了 M2.5,连一向低调的 DeepSeek 也更新了版本。

所有人都在抢春节档。

营销更是热闹。

豆包赞助春晚买曝光,元宝砸 10 亿搞裂变,千问投 30 亿搞免单。

但在砸钱抢人之外,阿里还憋了一手技术牌。


Qwen3.5 架构,要这么看

Qwen3.5 最值得聊的,是它的架构。

上一代 Qwen3-Max 的哲学是「大就是好」,万亿参数硬堆。

Qwen3.5 换了个思路,参数还是多,但每次只请最合适的那一批出来干活。

MoE 不是新概念,上一代也是。

Qwen3.5 把稀疏度拉得更极端了,激活比例从 9.4% 降到 4.3%。

说人话,用更少的人干活,效果还更好。

注意力机制也很有意思。

Qwen3.5 用了一种叫 Gated DeltaNet 的线性注意力,和传统注意力按 3:1 混合。

传统注意力有个老毛病,计算量随上下文长度平方增长。

32K token 还撑得住,256K 就不行了。

Gated DeltaNet 的计算量只随上下文线性增长。

这就是 19 倍速度差的来源之一。数学计算更快了。

但天下没有免费的午餐。线性注意力会损失一部分全局上下文建模能力,所以千问团队保留了 25% 的传统注意力层来兜底。

这个 3:1 的混合策略不是阿里独创的,月之暗面的 Kimi Linear 也用了类似比例。


「原生多模态」终于来了

早期的多模态模型,大多是先训练纯文本模型,再把视觉模块焊上去。

就像在轿车上装个拖车钩。能用,但总觉得哪里不对。

现在 AI 模型基本都在往原生多模态转,谷歌、OpenAI 都是。

Qwen3.5 也走的这条路,从预训练开始就让文本和图像一起学。

这个模型从出生那天起,就是同时看文字和图片长大的。

从基准测试得分就能看出来。

MMMU-Pro 视觉推理 79.0,OmniDocBench 文档识别 90.8,Video-MME 视频理解 87.5,基本都是 TOP 水准。

「原生多模态」在 Agent 场景更实用。

它能看着手机屏幕帮你操作 APP,能把手绘草图变成前端代码,能看 2 小时的视频再提炼成结构化网页。

上下文窗口 1M(百万)tokens,一次喂进去一整部电影都行。


Qwen3.5 跑分,要这么看

先说能打的。

IFBench 指令遵循 76.5,最高。

BrowseComp 浏览器搜索智能体 78.6,第二名 Claude Opus 4.5 只有 67.8。

OmniDocBench 文档识别 90.8,同样全场第一。

没赢的也有。

SWE-bench Verified 代码能力,Qwen3.5 是 76.4,Claude Opus 4.5 拿了 80.9,GPT-5.2 是 80.0,还有差距。

Terminal-Bench 终端编程 52.5,Claude Opus 4.5 59.3,差距更明显。

GPQA Diamond 研究生级推理 88.4,GPT-5.2 是 92.4,Gemini 3 Pro 91.9。

注意,还有个细节。

阿里官方对比的竞品模型是 GPT-5.2Claude Opus 4.5Gemini 3 Pro

但 OpenAI 在 2 月 5 号已经发了 GPT-5.3-Codex,Terminal-Bench 2.0 拿到了惊人的 77.3%。

Anthropic 同一天发布 Claude Opus 4.6,GPQA Diamond 91.3%,ARC-AGI 2 从 37.6% 飙到 68.8%。

阿里比的,不是最新的对手。

Qwen3.5 的评测周期可能在这两个模型发布之前就完成了。


Qwen3.5 怎么用

最简单的方式,打开 Qwen Chat chat.qwen.ai,直接用。

完全免费。

三种模式可选,自动、思考、快速。

API 调用,阿里云百炼选 Qwen3.5-Plus,默认 1M 上下文窗口。

价格在这,相当可以。

也可以本地部署,开源权重在 Hugging Face 和魔搭都有。


除夕夜,别人在发红包,阿里在发模型。

这份年货,可能比任何红包都值钱。


我是木易,Top2 + 美国 Top10 CS 硕,现在是 AI 产品经理。

关注「AI信息Gap」,让 AI 成为你的外挂。


Read more

AI 编程工具选型:Copilot、Cursor、Codex 核心差异

AI 编程工具选型:Copilot、Cursor、Codex 核心差异

【如文章引起大家共鸣,请“点赞”以及“转发”,以支持继续创作,谢谢大家!】 朋友们大家好!今天咱们不聊那些虚头巴脑的,直接来点实在的——AI编程工具选型,Copilot、Cursor、Codex这仨到底咋选?别急,我这就用最接地气的方式,给你唠唠它们的“脾气秉性”,保证你听完就能上手挑! 先说Copilot,这哥们儿可是“代码补全界的扛把子”!它就像你身边的“代码小秘书”,你敲代码时,它就在旁边默默观察,你刚敲个“for”,它立马给你补上“(int i=0;i<n;i++)”,那叫一个快!而且,它还支持多IDE,VS Code、JetBrains啥的,都能无缝对接。不过呢,Copilot也有个“小毛病”,就是它更擅长“补全”,对于复杂的代码重构或者项目级理解,就有点力不从心了。

By Ne0inhk
AIGC-Fooocus部署实践:从本地手动配置到云端一键启用的深度剖析

AIGC-Fooocus部署实践:从本地手动配置到云端一键启用的深度剖析

摘要: 本文旨在为人工智能生成内容(AIGC)领域的爱好者和开发者提供一份详尽的Fooocus部署指南。Fooocus作为一款基于Gradio的开源图像生成软件,凭借其简化的操作和高质量的输出,受到了广泛关注。我们将通过两种截然不同的部署路径——传统的本地手动环境配置与现代化的云平台一键部署——来全面探索Fooocus的落地过程。本文将深入剖析手动部署中的每一个步骤、每一条命令及其背后的技术逻辑,详细记录可能遇到的环境冲突与解决方案,并将其与云端部署的流畅体验进行客观对比,为读者在不同场景下选择最合适的部署策略提供坚实的技术参考。 第一章:引言——Fooocus与AIGC部署的挑战 随着Stable Diffusion等底层模型的开源,AIGC技术,特别是文生图领域,迎来了爆发式的增长。各种应用和WebUI层出不穷,极大地降低了普通用户接触和使用前沿AI模型的门槛。在众多工具中,由lllyasviel(ControlNet的作者)开发的Fooocus,以其独特的哲学脱颖而出。Fooocus的设计理念是“化繁为简”,它在保留Stable Diffusion XL(SDXL)强大能力的

By Ne0inhk

无需编码!Llama-Factory可视化界面让大模型微调更简单

无需编码!Llama-Factory可视化界面让大模型微调更简单 在大语言模型(LLM)加速落地的今天,越来越多企业希望拥有一个能理解自身业务、回答专业问题的“专属AI助手”。然而现实是:大多数团队卡在了第一步——微调。写不完的训练脚本、配不好的环境依赖、动不动就OOM的显存……这些技术门槛把非算法背景的开发者挡在门外。 有没有一种方式,能让普通人像使用Photoshop一样,“点几下”就把一个通用大模型变成懂医疗、懂法律、懂客服的垂直领域专家?答案正是 Llama-Factory。 这个开源项目正在悄悄改变游戏规则。它不像其他框架只解决某个环节的问题,而是直接提供了一套从数据上传到模型导出的完整流水线,并通过一个简洁的Web界面,实现了真正意义上的“零代码微调”。 让复杂流程变得像填表一样简单 想象这样一个场景:你是一家健康科技公司的产品经理,手里有一批医患对话记录,想训练一个能自动回答常见疾病咨询的AI助手。过去你需要协调算法工程师排期,等两周才能拿到第一个测试版本;而现在,你可以自己登录服务器,在浏览器里完成全部操作。 打开 Llama-Factory 的 WebU

By Ne0inhk
在昇腾NPU上跑Llama 2模型:一次完整的性能测试与实战通关指南

在昇腾NPU上跑Llama 2模型:一次完整的性能测试与实战通关指南

目录 * 在昇腾NPU上跑Llama 2模型:一次完整的性能测试与实战通关指南 * 引言:从“为什么选择昇腾”开始 * 第一幕:环境搭建——好的开始是成功的一半 * 1.1 GitCode Notebook 创建“避坑指南” * 1.2 环境验证:“Hello, NPU!” * 第二幕:模型部署——从下载到运行的“荆棘之路” * 2.1 安装依赖与模型下载 * 2.2 核心部署代码与“坑”的化解 * 第三幕:性能测试——揭开昇腾NPU的真实面纱 * 3.1 严谨的性能测试脚本 * 3.2 测试结果与分析 * 第四幕:性能优化——让Llama跑得更快 * 4.1 使用昇腾原生大模型框架 * 4.

By Ne0inhk