开源大模型文件后缀含义与量化选型指南 | 极客日志

编程语言AI算法

开源大模型文件后缀含义与量化选型指南

了开源大模型（如 Qwen3.5）的文件后缀含义，包括 IQ、Q、UD 等量化格式的区别及精度说明。梳理了不同参数量级模型的显存需求、架构特点及适用场景，提供了从个人设备到企业部署的选型建议与决策树。同时列出了性能测试参考数据及部署工具推荐，帮助开发者根据实际需求选择合适的模型版本与量化方案。

不羁发布于 2026/3/29更新于 2026/7/1644 浏览

一、Qwen3.5-4B 模型后缀详解

1. IQ (Integer Quantization - Adaptive/Quasi-Integer)

IQ 表示整数量化，通常比标准 K-means 量化在推理速度上更快。

后缀	精度	说明
IQ4_NL	4-bit	Neural/Integer 格式，基于 llama.cpp 定义（NL=Neural/Integer）
IQ4_XS	4-bit	超小模型版本，可能微调校准或粒度不同
IQ2_M	2-bit	中等精度整数量化
IQ2_XXS	2-bit	超超小模型版本

2. Q (Quantization - K-means based)

Q 表示标准 K-means 量化，通常比 IQ 更稳定但速度稍慢。

后缀	精度	说明
Q3_K_M	3-bit	中等精度，平衡速度与准确率（K=K-means）
Q3_K_S	3-bit	小模型版本
Q4_0	4-bit	标准量化（原始方法）
Q4_1	4-bit	改进异常值处理
Q4_K_M	4-bit	中等精度 K-means
Q4_K_S	4-bit	小模型版本
Q5_K_M	5-bit	中等精度，平衡速度与准确率（K=K-means）
Q5_K_S	5-bit	小模型版本
Q6_K	6-bit	标准量化

3. UD (Unsloth Dynamic)

UD 表示Unsloth 动态量化，Unsloth 库优化的方法。

后缀	精度	说明
UD-IQ2_M	2-bit	Unsloth 动态整数量化（中等）

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online

前缀	类型	说明
IQ	整数量化	通常推理更快（基于 llama.cpp）
Q	K-means 量化	标准格式，稳定性更高
K	K-means 标识	表示使用 K-means 聚类算法
S/M/L	大小版本	对应 Small、Medium、Large，通常反映精度/速度的权衡
UD	Unsloth 动态	Unsloth 库的优化方法

名称	总参数	激活参数	架构	上下文	FP16 显存 (GB)	4bit 量化显存 (GB)	定位
Qwen3.5-0.8B	0.8B	0.8B	Dense	32K	1.6 GB	0.4 GB	极致轻量、端侧/实时交互
Qwen3.5-2B	2B	2B	Dense	32K	4 GB	1 GB	移动端/IoT、低延迟对话
Qwen3.5-4B	4B	4B	Dense	64K	8 GB	2 GB	轻量 Agent、多模态基座
Qwen3.5-9B	9B	9B	Dense	128K	18 GB	4.5 GB	性价比通用、服务器部署

名称	总参数	激活参数	架构	上下文	FP16 显存	4bit 量化显存	定位
Qwen3.5-0.8B	0.8B	0.8B	Dense	32K	1.6 GB	0.4 GB	极致轻量、端侧/实时交互
Qwen3.5-2B	2B	2B	Dense	32K	4 GB	1 GB	移动端/IoT、低延迟对话
Qwen3.5-4B	4B	4B	Dense	64K	8 GB	2 GB	轻量 Agent、多模态基座
Qwen3.5-9B	9B	9B	Dense	128K	18 GB	4.5 GB	性价比通用、服务器部署

名称	总参数	激活参数	架构	上下文	FP16 显存	4bit 量化显存	定位
Qwen3.5-35B-A3B	35B	3B	MoE (256 专家)	256K	6 GB	1.5 GB	Agent/深度推理、24GB+ 显存可跑
Qwen3.5-122B-A10B	122B	10B	MoE (256 专家)	1M	20 GB	5 GB	知识密集/多模态/视频、接近旗舰

名称	总参数	激活参数	架构	上下文	FP16 显存	4bit 量化显存	定位
Qwen3.5-397B-A17B	397B	17B	MoE (512 专家)	1M	34 GB	8.5 GB	开源旗舰、全场景通用、对标闭源第一梯队

能力类型	最佳选择	说明
综合能力	Qwen3.5-397B-A17B	≈91.5（开源第一，对标 GPT-5.2）
代码能力	Qwen3.5-27B	HumanEval≈89.3、SWE-bench≈76.5
Agent/工具调用	Qwen3.5-35B-A3B	ICCoding≈76.8（Agent 最强版，性能提升>60%）
中文能力	全系列 ≈92.3	CLUE/SuperCLUE 测试：全系列最强
多模态/长文本	Qwen3.5-397B-A17B	MMNU≈85.0，1M 上下文无损

能力维度	最佳选择	说明
解码吞吐量	Qwen3.5-397B-A17B	8.6×Qwen3-Max，快得多的场景
长上下文效率	Qwen3.5-27B/35B-A3B	256K 下≈19.0×（超大型模型）
推理成本	Qwen3.5-4B	比 Qwen3-Max 低 60%，极低成本

测试场景	推荐方案	理由
综合性能测试	397B-A17B	综合能力最强，对标 GPT-5.2
代码能力测试	27B	HumanEval≈89.3、SWE-bench≈76.5
Agent 工具调用	35B-A3B	ICCoding≈76.8、性能提升>60%
中文能力测试	全系列 ≈92.3	全系列最强，CLUE/SuperCLUE 最佳
多模态/长文本测试	397B-A17B	MMNU≈85.0、1M 上下文无损

用户选择 → 个人设备？ ├── 是 → 选 0.8B/2B/4B（小巧便携，推理快） └── 否 → 企业环境？ ├── 代码/工程部署 → 选 27B（稠密最强、部署简单） ├── Agent 深度推理 → 选 35B-A3B（性能提升>60%） ├── 知识密集/视频处理 → 选 122B-A10B（性价比>60%） └── 全场景 AI 基座 → 选 397B-A17B（全能王者）

场景	推荐工具
推理加速	vLLM、TGI
模型服务	Transformers、主流云平台服务
多模态支持	需额外 MMProj 文件（如 mmproj-F16.gguf）

开源大模型文件后缀含义与量化选型指南

一、Qwen3.5-4B 模型后缀详解

1. IQ (Integer Quantization - Adaptive/Quasi-Integer)

2. Q (Quantization - K-means based)

3. UD (Unsloth Dynamic)

更多推荐文章

相关免费在线工具

4. MMProj (Multimodal Projector)

二、命名规则总结

三、Qwen3.5-4B 具体参数

四、完整开源矩阵

1. 轻量稠密系列 (Dense)

2. 中型 MoE 系列 (MoE)

3. 旗舰 MoE 系列 (MoE)

五、实际测试与选型建议

1. 性能测试参考

2. 速度与效率对比（32K 上下文）

3. 实际部署推荐

个人开发者/边缘计算

企业/开发者环境

测试建议

六、选型决策树（简化版）

七、注意事项

显存规划

部署工具推荐

语言与版本信息

更多推荐文章

相关免费在线工具

开源大模型文件后缀含义与量化选型指南

一、Qwen3.5-4B 模型后缀详解

1. IQ (Integer Quantization - Adaptive/Quasi-Integer)

2. Q (Quantization - K-means based)

3. UD (Unsloth Dynamic)

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

4. MMProj (Multimodal Projector)

二、命名规则总结

三、Qwen3.5-4B 具体参数

四、完整开源矩阵

1. 轻量稠密系列 (Dense)

2. 中型 MoE 系列 (MoE)

3. 旗舰 MoE 系列 (MoE)

五、实际测试与选型建议

1. 性能测试参考

2. 速度与效率对比（32K 上下文）

3. 实际部署推荐

个人开发者/边缘计算

企业/开发者环境

测试建议

六、选型决策树（简化版）

七、注意事项

显存规划

部署工具推荐

语言与版本信息

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具