通义千问开源模型全景解析:从 Qwen2.5 到 Qwen3 的架构演进
系统梳理了通义千问开源模型矩阵,涵盖 Qwen2.5 至 Qwen3 系列,重点解析了 Transformer 与 MoE 混合专家架构原理。介绍了双模推理机制、参数规格及部署方案,并通过代码示例展示了 API 调用与本地部署方法,为开发者提供选型建议与技术落地参考。

系统梳理了通义千问开源模型矩阵,涵盖 Qwen2.5 至 Qwen3 系列,重点解析了 Transformer 与 MoE 混合专家架构原理。介绍了双模推理机制、参数规格及部署方案,并通过代码示例展示了 API 调用与本地部署方法,为开发者提供选型建议与技术落地参考。

阿里巴巴的通义千问(Qwen)系列大模型已成为全球规模最大的开源模型族群。截至 2025 年,通义千问已开源 200 多款模型,衍生模型数量突破 10 万。
本文将系统梳理通义千问的开源模型矩阵,并深入解析其核心技术架构——Transformer + MoE(混合专家模型)的工作原理。
通义千问率先实现了'全尺寸、全模态、多场景'的开源布局,涵盖从 0.5B 到 235B 参数的全系列模型。
Qwen3 是国内首款融合'快思考'与'慢思考'的混合推理模型:
| 模型名称 | 架构类型 | 总参数 | 激活参数 | 上下文长度 | 特点 |
|---|---|---|---|---|---|
| Qwen3-235B-A22B | MoE | 235B | 22B | 128K | 旗舰模型,性能对标国际顶尖 |
| Qwen3-30B-A3B | MoE | 30B | 3B | 128K | 高效推理,低成本部署 |
| Qwen3-32B | Dense | 32B | 32B | 128K | 稠密模型,均衡性能 |
| Qwen3-14B | Dense | 14B | 14B | 128K | 中等规模,广泛应用 |
| Qwen3-8B | Dense | 8B | 8B | 128K | 轻量级部署 |
| Qwen3-4B/2B/0.6B | Dense | 0.6B-4B | 同等 | 128K | 端侧/边缘设备优化 |
关键创新:
enable_thinking 参数切换成熟稳定的基座模型系列:
| 参数规格 | 0.5B | 1.5B | 3B | 7B | 14B | 32B | 72B |
|---|---|---|---|---|---|---|---|
| 上下文长度 | 128K | 128K | 128K | 128K | 128K | 128K | 128K |
| 训练数据 | 18 万亿 tokens | ||||||
| 开源协议 | Apache 2.0(商用友好) |
通义千问还开源了面向特定领域的专门模型:
| 系列 | 用途 | 代表模型 |
|---|---|---|
| Qwen-Coder | 代码生成与编程 | Qwen2.5-Coder, Qwen3-Coder-480B-A35B |
| Qwen-VL | 视觉 - 语言多模态 | Qwen2.5-VL, Qwen3-VL |
| Qwen-Audio | 音频处理 | Qwen2-Audio, Qwen3-ASR-Flash |
| Qwen-Math | 数学推理 | Qwen2.5-Math |
| QwQ/QVQ | 推理思考模型 | QwQ-32B-Preview, QVQ-72B-Preview |
| Qwen-Omni | 端到端全模态 | Qwen2.5-Omni-7B, Qwen3-Omni |
| Qwen-Embedding | 文本嵌入 | Qwen3-Embedding |
2025 年 6 月,通义千问团队开源了 Qwen3 全系列 32 款 MLX 量化模型,专为苹果芯片优化,可在 Mac 设备上高效运行。
通义千问基于 Transformer 架构构建,核心组件包括:
在 Qwen3 中,Transformer 架构经过增强优化,支持更长的上下文窗口(最高 128K tokens)和更高效的训练策略。
传统稠密模型(Dense Model)面临一个根本矛盾:模型容量与计算成本的权衡。
MoE(Mixture of Experts)将传统 Transformer 中的 FFN 层替换为 MoE 层,后者由两个核心组件构成:
1. 专家网络(Experts)
E_i(x) = Expert_i(x; W_i)2. 门控网络(Gating Network / Router)
G(x) = Softmax(W_g · x)输出计算:
y = Σ G(x)_i · E_i(x)
其中 N 为专家总数,G(x)_i 为第 i 个专家的权重。
MoE 的关键创新在于稀疏激活:
示例:
这种设计使得模型在保持大规模参数容量的同时,推理成本与中小模型相当。
MoE 训练面临两个核心挑战:
1. 专家负载失衡
2. 训练不稳定性
大规模 MoE 模型需要复杂的分布式训练策略:
┌─────────────────────────────────────────┐
│ 输入数据 (Input Tokens) │
└─────────────────┬───────────────────────┘
▼
┌─────────────────────────────────────────┐
│ 门控网络 (Gating Network) │
│ 决定每个 token 路由到哪些专家 │
└─────────────────┬───────────────────────┘
▼
┌─────────────────────────────────────────┐
│ All-to-All 通信:将 token 分发给专家 │
└─────────────────┬───────────────────────┘
▼
┌─────────────────────────────────────────┐
│ 专家计算 (Expert Computation) │
│ 每个专家并行处理分配到的 tokens │
└─────────────────┬───────────────────────┘
▼
┌─────────────────────────────────────────┐
│ All-to-All 通信:收集专家计算结果 │
└─────────────────┬───────────────────────┘
▼
┌─────────────────────────────────────────┐
│ 加权聚合 (Weighted Sum) │
│ 根据门控权重合并各专家输出 │
└─────────────────────────────────────────┘
在分布式环境中,专家网络通常分布在不同 GPU 上,通过 All-to-All 通信实现 token 的路由和结果收集。
Qwen3 首创'思考/非思考'双模机制:
用户可通过 enable_thinking 参数灵活切换,实现'一个模型,两种用法'。
根据 2025 年 8 月 Chatbot Arena 榜单:
| 应用场景 | 推荐模型 | 理由 |
|---|---|---|
| 通用对话/客服 | Qwen3-14B/32B | 性能与成本平衡 |
| 代码生成 | Qwen3-Coder | 专门优化,编程能力顶尖 |
| 复杂推理/数学 | Qwen3-235B-A22B (思考模式) | 深度推理能力最强 |
| 端侧/边缘部署 | Qwen3-0.6B/2B/4B | 轻量级,低资源占用 |
| 长文档分析 | Qwen2.5-72B | 128K 上下文,长文本能力强 |
| 多模态理解 | Qwen3-VL/Omni | 支持图文音视频全模态 |
| 企业私有化部署 | Qwen3-30B-A3B (MoE) | 高性能,低推理成本 |
# 使用阿里云百炼平台
import openai
client = openai.OpenAI(
api_key="your-api-key",
base_url="https://dashscope.aliyuncs.com/compatible-mode/v1"
)
response = client.chat.completions.create(
model="qwen3-235b-a22b",
messages=[{"role":"user","content":"你好"}],
extra_body={"enable_thinking":True} # 开启思考模式
)
# 安装 Ollama 后,直接拉取模型
ollama pull qwen3:32b
# 运行模型
ollama run qwen3:32b
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "Qwen/Qwen3-30B-A3B"
model = AutoModelForCausalLM.from_pretrained(
model_name, torch_dtype="auto", device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
# 推理时切换思考模式
inputs = tokenizer("你好", return_tensors="pt")
outputs = model.generate(**inputs, enable_thinking=True) # 或 False
通义千问通过全尺寸开源和 MoE 架构创新,正在重塑开源大模型生态:
随着 Qwen3 系列的持续迭代和开源生态的繁荣,通义千问正在从'跟随者'转变为全球 AI 领域的'规则制定者'。对于技术从业者而言,深入理解其架构原理,将有助于在 AI 应用开发中做出更优的技术选型。
参考资源:

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online