一、Qwen3.5-4B 模型后缀详解(最新:2026.3)
1. IQ (Integer Quantization - Adaptive/Quasi-Integer)
IQ 表示整数量化,通常比标准 K-means 量化在推理速度上更快。
| 后缀 | 精度 | 说明 |
|---|---|---|
| IQ4_NL | 4-bit | Neural/Integer 格式,基于 llama.cpp 定义(NL=Neural/Integer) |
| IQ4_XS | 4-bit | 超小模型版本,可能微调校准或粒度不同 |
| IQ2_M | 2-bit | 中等精度整数量化 |
| IQ2_XXS | 2-bit | 超超小模型版本 |
2. Q (Quantization - K-means based)
Q 表示标准 K-means 量化,通常比 IQ 更稳定但速度稍慢。
| 后缀 | 精度 | 说明 |
|---|---|---|
| Q3_K_M | 3-bit | 中等精度,平衡速度与准确率(K=K-means) |
| Q3_K_S | 3-bit | 小模型版本 |
| Q4_0 | 4-bit | 标准量化(原始方法) |
| Q4_1 | 4-bit | 改进异常值处理 |
| Q4_K_M | 4-bit | 中等精度 K-means |
| Q4_K_S | 4-bit | 小模型版本 |
| Q5_K_M | 5-bit | 中等精度,平衡速度与准确率(K=K-means) |
| Q5_K_S | 5-bit | 小模型版本 |
| Q6_K | 6-bit | 标准量化 |
3. UD (Unsloth Dynamic)
UD 表示Unsloth 动态量化,Unsloth 库优化的方法。
| 后缀 | 精度 | 说明 |
|---|---|---|
| UD-IQ2_M | 2-bit | Unsloth 动态整数量化(中等) |


