一、Qwen3.5-4B 模型后缀详解(最新:2026.3)
1. IQ (Integer Quantization - Adaptive/Quasi-Integer)
IQ 表示整数量化,通常比标准 K-means 量化在推理速度上更快。
| 后缀 | 精度 | 说明 |
|---|
| IQ4_NL | 4-bit | Neural/Integer 格式,基于 llama.cpp 定义(NL=Neural/Integer) |
| IQ4_XS | 4-bit | 超小模型版本,可能微调校准或粒度不同 |
| IQ2_M | 2-bit | 中等精度整数量化 |
| IQ2_XXS | 2-bit | 超超小模型版本 |
2. Q (Quantization - K-means based)
Q 表示标准 K-means 量化,通常比 IQ 更稳定但速度稍慢。
| 后缀 | 精度 | 说明 |
|---|
| Q3_K_M | 3-bit | 中等精度,平衡速度与准确率(K=K-means) |
| Q3_K_S | 3-bit | 小模型版本 |
| Q4_0 | 4-bit | 标准量化(原始方法) |
| Q4_1 | 4-bit | 改进异常值处理 |
| Q4_K_M | 4-bit | 中等精度 K-means |
| Q4_K_S | 4-bit | 小模型版本 |
| Q5_K_M | 5-bit | 中等精度,平衡速度与准确率(K=K-means) |
| Q5_K_S | 5-bit | 小模型版本 |
| Q6_K | 6-bit | 标准量化 |
3. UD (Unsloth Dynamic)
UD 表示Unsloth 动态量化,Unsloth 库优化的方法。
| 后缀 | 精度 | 说明 |
|---|
| UD-IQ2_M | 2-bit | Unsloth 动态整数量化(中等) |
| UD-IQ2_XXS | 2-bit | Unsloth 动态超小模型版本 |
| UD-IQ3_XXS | 3-bit | Unsloth 动态超超小模型版本 |
| UD-Q2_K_XL | 2-bit | Unsloth 动态 K-means(超大模型) |
4. MMProj (Multimodal Projector)
MMProj 是多模态投影器文件,用于支持视觉能力。这些文件独立于模型名,例如:
mmproj-F16.gguf - F16 量化版本mmproj-Q3_K_M.gguf - Q3_K_M 量化版本
二、命名规则总结
| 前缀 | 类型 | 说明 |
|---|
| IQ | 整数量化 | 通常推理更快(基于 llama.cpp) |
| Q | K-means 量化 | 标准格式,稳定性更高 |
| K | K-means 标识 | 表示使用 K-means 聚类算法 |
| S/M/L | 大小版本 | 对应 Small、Medium、Large,通常反映精度/速度的权衡 |
| UD | Unsloth 动态 | Unsloth 库的优化方法 |
三、Qwen3.5-4B 具体参数(最新:2026.3)
| 名称 | 总参数 | 激活参数 | 架构 | 上下文 | FP16 显存 (GB) | 4bit 量化显存 (GB) | 定位 |
|---|
| Qwen3.5-0.8B | 0.8B | 0.8B | Dense | 32K | 1.6 GB | 0.4 GB | 极致轻量、端侧/实时交互 |
| Qwen3.5-2B | 2B | 2B | Dense | 32K | 4 GB | 1 GB | 移动端/IoT、低延迟对话 |
| Qwen3.5-4B | 4B | 4B | Dense | 64K | 8 GB | 2 GB | 轻量 Agent、多模态基座 |
| Qwen3.5-9B | 9B | 9B | Dense | 128K | 18 GB | 4.5 GB | 性价比通用、服务器部署 |
四、完整开源矩阵(2026 年 3 月)
1. 轻量稠密系列 (Dense)
| 名称 | 总参数 | 激活参数 | 架构 | 上下文 | FP16 显存 | 4bit 量化显存 | 定位 |
|---|
| Qwen3.5-0.8B | 0.8B | 0.8B | Dense | 32K | 1.6 GB | 0.4 GB | 极致轻量、端侧/实时交互 |
| Qwen3.5-2B | 2B | 2B | Dense | 32K | 4 GB | 1 GB | 移动端/IoT、低延迟对话 |
| Qwen3.5-4B | 4B | 4B | Dense | 64K | 8 GB | 2 GB | 轻量 Agent、多模态基座 |
| Qwen3.5-9B | 9B | 9B | Dense | 128K | 18 GB | 4.5 GB | 性价比通用、服务器部署 |
2. 中型 MoE 系列 (MoE)
| 名称 | 总参数 | 激活参数 | 架构 | 上下文 | FP16 显存 | 4bit 量化显存 | 定位 |
|---|
| Qwen3.5-35B-A3B | 35B | 3B | MoE (256 专家) | 256K | 6 GB | 1.5 GB | Agent/深度推理、24GB+ 显存可跑 |
| Qwen3.5-122B-A10B | 122B | 10B | MoE (256 专家) | 1M | 20 GB | 5 GB | 知识密集/多模态/视频、接近旗舰 |
3. 旗舰 MoE 系列 (MoE)
| 名称 | 总参数 | 激活参数 | 架构 | 上下文 | FP16 显存 | 4bit 量化显存 | 定位 |
|---|
| Qwen3.5-397B-A17B | 397B | 17B | MoE (512 专家) | 1M | 34 GB | 8.5 GB | 开源旗舰、全场景通用、对标闭源第一梯队 |
五、实际测试与选型建议(2026.3)
1. 性能测试参考(权威测评,2026.2)
| 能力类型 | 最佳选择 | 说明 |
|---|
| 综合能力 | Qwen3.5-397B-A17B | ≈91.5(开源第一,对标 GPT-5.2) |
| 代码能力 | Qwen3.5-27B | HumanEval≈89.3、SWE-bench≈76.5 |
| Agent/工具调用 | Qwen3.5-35B-A3B | ICCoding≈76.8(Agent 最强版,性能提升>60%) |
| 中文能力 | 全系列 ≈92.3 | CLUE/SuperCLUE 测试:全系列最强 |
| 多模态/长文本 | Qwen3.5-397B-A17B | MMNU≈85.0,1M 上下文无损 |
2. 速度与效率对比(32K 上下文)
| 能力维度 | 最佳选择 | 说明 |
|---|
| 解码吞吐量 | Qwen3.5-397B-A17B | 8.6×Qwen3-Max,快得多的场景 |
| 长上下文效率 | Qwen3.5-27B/35B-A3B | 256K 下≈19.0×(超大型模型) |
| 推理成本 | Qwen3.5-4B | 比 Qwen3-Max 低 60%,极低成本 |
3. 实际部署推荐(2026 年)
个人开发者/边缘计算
- 0.8B: CPU/GPU 均可跑,0.4 GB 显存需求
- 2B: 移动端/IoT、低延迟对话
- 4B: 轻量 Agent、多模态基座(推荐)
- 9B: 性价比通用、服务器部署
企业/开发者环境
- 27B: 代码/指令微调首选,推理快,部署简单
- 35B-A3B: Agent 深度推理、>24GB 显存可跑
- 122B-A10B: 知识密集/多模态/视频处理(接近旗舰)
- 397B-A17B: 企业级 AI 基座、全场景通用
测试建议
| 测试场景 | 推荐方案 | 理由 |
|---|
| 综合性能测试 | 397B-A17B | 综合能力最强,对标 GPT-5.2 |
| 代码能力测试 | 27B | HumanEval≈89.3、SWE-bench≈76.5 |
| Agent 工具调用 | 35B-A3B | ICCoding≈76.8、性能提升>60% |
| 中文能力测试 | 全系列 ≈92.3 | 全系列最强,CLUE/SuperCLUE 最佳 |
| 多模态/长文本测试 | 397B-A17B | MMNU≈85.0、1M 上下文无损 |
六、选型决策树(简化版)
用户选择 → 个人设备? ├── 是 → 选 0.8B/2B/4B(小巧便携,推理快) └── 否 → 企业环境? ├── 代码/工程部署 → 选 27B(稠密最强、部署简单) ├── Agent 深度推理 → 选 35B-A3B(性能提升>60%) ├── 知识密集/视频处理 → 选 122B-A10B(性价比>60%) └── 全场景 AI 基座 → 选 397B-A17B(全能王者)
七、注意事项
显存规划
- 4B: 8 GB FP16 ≈ 2 GB 4bit,适合单卡部署
- 9B: 18 GB FP16 ≈ 4.5 GB 4bit
- 35B-A3B: 6 GB FP16 ≈ 1.5 GB 4bit(Agent 最强版)
- 122B-A10B: 20 GB FP16 ≈ 5 GB 4bit(接近旗舰)
- 397B-A17B: 34 GB FP16 ≈ 8.5 GB 4bit(企业级基座)
部署工具推荐
| 场景 | 推荐工具 |
|---|
| 推理加速 | vLLM、TGI |
| 模型服务 | Transformers、阿里云 PAI、华为云 ModelArts |
| 多模态支持 | 需额外 MMProj 文件(如 mmproj-F16.gguf) |
语言与版本信息
- 最新测试: 2026.3(Qwen3.5-4B)
- 开源矩阵: 截至 2026 年 3 月 3 日
- 量化格式: IQ、Q、K-means、UD 动态等方法