编程语言AI算法
开源大模型文件后缀含义与量化选型指南
本文详解了开源大模型(如 Qwen3.5)的文件后缀含义,包括 IQ、Q、UD 等量化格式的区别及精度说明。梳理了不同参数量级模型的显存需求、架构特点及适用场景,提供了从个人设备到企业部署的选型建议与决策树。同时列出了性能测试参考数据及部署工具推荐,帮助开发者根据实际需求选择合适的模型版本与量化方案。

本文详解了开源大模型(如 Qwen3.5)的文件后缀含义,包括 IQ、Q、UD 等量化格式的区别及精度说明。梳理了不同参数量级模型的显存需求、架构特点及适用场景,提供了从个人设备到企业部署的选型建议与决策树。同时列出了性能测试参考数据及部署工具推荐,帮助开发者根据实际需求选择合适的模型版本与量化方案。

IQ 表示整数量化,通常比标准 K-means 量化在推理速度上更快。
| 后缀 | 精度 | 说明 |
|---|---|---|
| IQ4_NL | 4-bit | Neural/Integer 格式,基于 llama.cpp 定义(NL=Neural/Integer) |
| IQ4_XS | 4-bit | 超小模型版本,可能微调校准或粒度不同 |
| IQ2_M | 2-bit | 中等精度整数量化 |
| IQ2_XXS | 2-bit | 超超小模型版本 |
Q 表示标准 K-means 量化,通常比 IQ 更稳定但速度稍慢。
| 后缀 | 精度 | 说明 |
|---|---|---|
| Q3_K_M | 3-bit | 中等精度,平衡速度与准确率(K=K-means) |
| Q3_K_S | 3-bit | 小模型版本 |
| Q4_0 | 4-bit | 标准量化(原始方法) |
| Q4_1 | 4-bit | 改进异常值处理 |
| Q4_K_M | 4-bit | 中等精度 K-means |
| Q4_K_S | 4-bit | 小模型版本 |
| Q5_K_M | 5-bit | 中等精度,平衡速度与准确率(K=K-means) |
| Q5_K_S | 5-bit | 小模型版本 |
| Q6_K | 6-bit | 标准量化 |
UD 表示Unsloth 动态量化,Unsloth 库优化的方法。
| 后缀 | 精度 | 说明 |
|---|---|---|
| UD-IQ2_M | 2-bit | Unsloth 动态整数量化(中等) |
| UD-IQ2_XXS | 2-bit | Unsloth 动态超小模型版本 |
| UD-IQ3_XXS | 3-bit | Unsloth 动态超超小模型版本 |
| UD-Q2_K_XL | 2-bit | Unsloth 动态 K-means(超大模型) |
MMProj 是多模态投影器文件,用于支持视觉能力。这些文件独立于模型名,例如:
mmproj-F16.gguf - F16 量化版本mmproj-Q3_K_M.gguf - Q3_K_M 量化版本| 前缀 | 类型 | 说明 |
|---|---|---|
| IQ | 整数量化 | 通常推理更快(基于 llama.cpp) |
| Q | K-means 量化 | 标准格式,稳定性更高 |
| K | K-means 标识 | 表示使用 K-means 聚类算法 |
| S/M/L | 大小版本 | 对应 Small、Medium、Large,通常反映精度/速度的权衡 |
| UD | Unsloth 动态 | Unsloth 库的优化方法 |
| 名称 | 总参数 | 激活参数 | 架构 | 上下文 | FP16 显存 (GB) | 4bit 量化显存 (GB) | 定位 |
|---|---|---|---|---|---|---|---|
| Qwen3.5-0.8B | 0.8B | 0.8B | Dense | 32K | 1.6 GB | 0.4 GB | 极致轻量、端侧/实时交互 |
| Qwen3.5-2B | 2B | 2B | Dense | 32K | 4 GB | 1 GB | 移动端/IoT、低延迟对话 |
| Qwen3.5-4B | 4B | 4B | Dense | 64K | 8 GB | 2 GB | 轻量 Agent、多模态基座 |
| Qwen3.5-9B | 9B | 9B | Dense | 128K | 18 GB | 4.5 GB | 性价比通用、服务器部署 |
| 名称 | 总参数 | 激活参数 | 架构 | 上下文 | FP16 显存 | 4bit 量化显存 | 定位 |
|---|---|---|---|---|---|---|---|
| Qwen3.5-0.8B | 0.8B | 0.8B | Dense | 32K | 1.6 GB | 0.4 GB | 极致轻量、端侧/实时交互 |
| Qwen3.5-2B | 2B | 2B | Dense | 32K | 4 GB | 1 GB | 移动端/IoT、低延迟对话 |
| Qwen3.5-4B | 4B | 4B | Dense | 64K | 8 GB | 2 GB | 轻量 Agent、多模态基座 |
| Qwen3.5-9B | 9B | 9B | Dense | 128K | 18 GB | 4.5 GB | 性价比通用、服务器部署 |
| 名称 | 总参数 | 激活参数 | 架构 | 上下文 | FP16 显存 | 4bit 量化显存 | 定位 |
|---|---|---|---|---|---|---|---|
| Qwen3.5-35B-A3B | 35B | 3B | MoE (256 专家) | 256K | 6 GB | 1.5 GB | Agent/深度推理、24GB+ 显存可跑 |
| Qwen3.5-122B-A10B | 122B | 10B | MoE (256 专家) | 1M | 20 GB | 5 GB | 知识密集/多模态/视频、接近旗舰 |
| 名称 | 总参数 | 激活参数 | 架构 | 上下文 | FP16 显存 | 4bit 量化显存 | 定位 |
|---|---|---|---|---|---|---|---|
| Qwen3.5-397B-A17B | 397B | 17B | MoE (512 专家) | 1M | 34 GB | 8.5 GB | 开源旗舰、全场景通用、对标闭源第一梯队 |
| 能力类型 | 最佳选择 | 说明 |
|---|---|---|
| 综合能力 | Qwen3.5-397B-A17B | ≈91.5(开源第一,对标 GPT-5.2) |
| 代码能力 | Qwen3.5-27B | HumanEval≈89.3、SWE-bench≈76.5 |
| Agent/工具调用 | Qwen3.5-35B-A3B | ICCoding≈76.8(Agent 最强版,性能提升>60%) |
| 中文能力 | 全系列 ≈92.3 | CLUE/SuperCLUE 测试:全系列最强 |
| 多模态/长文本 | Qwen3.5-397B-A17B | MMNU≈85.0,1M 上下文无损 |
| 能力维度 | 最佳选择 | 说明 |
|---|---|---|
| 解码吞吐量 | Qwen3.5-397B-A17B | 8.6×Qwen3-Max,快得多的场景 |
| 长上下文效率 | Qwen3.5-27B/35B-A3B | 256K 下≈19.0×(超大型模型) |
| 推理成本 | Qwen3.5-4B | 比 Qwen3-Max 低 60%,极低成本 |
| 测试场景 | 推荐方案 | 理由 |
|---|---|---|
| 综合性能测试 | 397B-A17B | 综合能力最强,对标 GPT-5.2 |
| 代码能力测试 | 27B | HumanEval≈89.3、SWE-bench≈76.5 |
| Agent 工具调用 | 35B-A3B | ICCoding≈76.8、性能提升>60% |
| 中文能力测试 | 全系列 ≈92.3 | 全系列最强,CLUE/SuperCLUE 最佳 |
| 多模态/长文本测试 | 397B-A17B | MMNU≈85.0、1M 上下文无损 |
用户选择 → 个人设备? ├── 是 → 选 0.8B/2B/4B(小巧便携,推理快) └── 否 → 企业环境? ├── 代码/工程部署 → 选 27B(稠密最强、部署简单) ├── Agent 深度推理 → 选 35B-A3B(性能提升>60%) ├── 知识密集/视频处理 → 选 122B-A10B(性价比>60%) └── 全场景 AI 基座 → 选 397B-A17B(全能王者)
| 场景 | 推荐工具 |
|---|---|
| 推理加速 | vLLM、TGI |
| 模型服务 | Transformers、主流云平台服务 |
| 多模态支持 | 需额外 MMProj 文件(如 mmproj-F16.gguf) |

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML 转 Markdown 互为补充。 在线工具,Markdown 转 HTML在线工具,online