引言
阿里巴巴的通义千问(Qwen)系列大模型已成为全球规模最大的开源模型族群。截至 2025 年,通义千问已开源 200 多款模型,衍生模型数量突破 10 万。
本文将系统梳理通义千问的开源模型矩阵,并深入解析其核心技术架构——Transformer + MoE(混合专家模型)的工作原理。
一、通义千问开源模型全系列
通义千问率先实现了'全尺寸、全模态、多场景'的开源布局,涵盖从 0.5B 到 235B 参数的全系列模型。
1.1 核心语言模型系列
Qwen3 系列(2025 年 4 月发布)
Qwen3 是国内首款融合'快思考'与'慢思考'的混合推理模型:
| 模型名称 | 架构类型 | 总参数 | 激活参数 | 上下文长度 | 特点 |
|---|---|---|---|---|---|
| Qwen3-235B-A22B | MoE | 235B | 22B | 128K | 旗舰模型,性能对标国际顶尖 |
| Qwen3-30B-A3B | MoE | 30B | 3B | 128K | 高效推理,低成本部署 |
| Qwen3-32B | Dense | 32B | 32B | 128K | 稠密模型,均衡性能 |
| Qwen3-14B | Dense | 14B | 14B | 128K | 中等规模,广泛应用 |
| Qwen3-8B | Dense | 8B | 8B | 128K | 轻量级部署 |
| Qwen3-4B/2B/0.6B | Dense | 0.6B-4B | 同等 | 128K | 端侧/边缘设备优化 |
关键创新:
- 双模推理机制:支持'思考模式'(慢思考,深度推理)和'非思考模式'(快思考,快速响应),通过
enable_thinking参数切换 - MoE 架构:235B 和 30B 版本采用混合专家模型,仅激活部分参数,大幅降低推理成本
Qwen2.5 系列(2024 年 9 月发布)
成熟稳定的基座模型系列:
| 参数规格 | 0.5B | 1.5B | 3B | 7B | 14B | 32B | 72B |
|---|---|---|---|---|---|---|---|
| 上下文长度 | 128K | 128K | 128K | 128K | 128K | 128K |


