【AI模型】开源模型后缀含义快速入门

【AI模型】开源模型后缀含义快速入门

一、Qwen3.5-4B 模型后缀详解(最新:2026.3)

1. IQ (Integer Quantization - Adaptive/Quasi-Integer)

IQ 表示整数量化,通常比标准 K-means 量化在推理速度上更快。

后缀精度说明
IQ4_NL4-bitNeural/Integer 格式,基于 llama.cpp 定义(NL=Neural/Integer)
IQ4_XS4-bit超小模型版本,可能微调校准或粒度不同
IQ2_M2-bit中等精度整数量化
IQ2_XXS2-bit超超小模型版本

2. Q (Quantization - K-means based)

Q 表示标准 K-means 量化,通常比 IQ 更稳定但速度稍慢。

后缀精度说明
Q3_K_M3-bit中等精度,平衡速度与准确率(K=K-means)
Q3_K_S3-bit小模型版本
Q4_04-bit标准量化(原始方法)
Q4_14-bit改进异常值处理
Q4_K_M4-bit中等精度 K-means
Q4_K_S4-bit小模型版本
Q5_K_M5-bit中等精度,平衡速度与准确率(K=K-means)
Q5_K_S5-bit小模型版本
Q6_K6-bit标准量化

3. UD (Unsloth Dynamic)

UD 表示Unsloth 动态量化,Unsloth 库优化的方法。

后缀精度说明
UD-IQ2_M2-bitUnsloth 动态整数量化(中等)
UD-IQ2_XXS2-bitUnsloth 动态超小模型版本
UD-IQ3_XXS3-bitUnsloth 动态超超小模型版本
UD-Q2_K_XL2-bitUnsloth 动态 K-means(超大模型)

4. MMProj (Multimodal Projector)

MMProj 是多模态投影器文件,用于支持视觉能力。这些文件独立于模型名,例如:

  • mmproj-F16.gguf - F16 量化版本
  • mmproj-Q3_K_M.gguf - Q3_K_M 量化版本

二、命名规则总结

前缀类型说明
IQ整数量化通常推理更快(基于 llama.cpp)
QK-means 量化标准格式,稳定性更高
KK-means 标识表示使用 K-means 聚类算法
S/M/L大小版本对应 Small、Medium、Large,通常反映精度/速度的权衡
UDUnsloth 动态Unsloth 库的优化方法

三、Qwen3.5-4B 具体参数(最新:2026.3)

名称总参数激活参数架构上下文FP16 显存 (GB)4bit 量化显存 (GB)定位
Qwen3.5-0.8B0.8B0.8BDense32K1.6 GB0.4 GB极致轻量、端侧/实时交互
Qwen3.5-2B2B2BDense32K4 GB1 GB移动端/IoT、低延迟对话
Qwen3.5-4B4B4BDense64K8 GB2 GB轻量 Agent、多模态基座
Qwen3.5-9B9B9BDense128K18 GB4.5 GB性价比通用、服务器部署

四、完整开源矩阵(2026 年 3 月)

1. 轻量稠密系列 (Dense)

名称总参数激活参数架构上下文FP16 显存4bit 量化显存定位
Qwen3.5-0.8B0.8B0.8BDense32K1.6 GB0.4 GB极致轻量、端侧/实时交互
Qwen3.5-2B2B2BDense32K4 GB1 GB移动端/IoT、低延迟对话
Qwen3.5-4B4B4BDense64K8 GB2 GB轻量 Agent、多模态基座
Qwen3.5-9B9B9BDense128K18 GB4.5 GB性价比通用、服务器部署

2. 中型 MoE 系列 (MoE)

名称总参数激活参数架构上下文FP16 显存4bit 量化显存定位
Qwen3.5-35B-A3B35B3BMoE (256 专家)256K6 GB1.5 GBAgent/深度推理、24GB+ 显存可跑
Qwen3.5-122B-A10B122B10BMoE (256 专家)1M20 GB5 GB知识密集/多模态/视频、接近旗舰

3. 旗舰 MoE 系列 (MoE)

名称总参数激活参数架构上下文FP16 显存4bit 量化显存定位
Qwen3.5-397B-A17B397B17BMoE (512 专家)1M34 GB8.5 GB开源旗舰、全场景通用、对标闭源第一梯队

五、实际测试与选型建议(2026.3)

1. 性能测试参考(权威测评,2026.2)

能力类型最佳选择说明
综合能力Qwen3.5-397B-A17B≈91.5(开源第一,对标 GPT-5.2)
代码能力Qwen3.5-27BHumanEval≈89.3、SWE-bench≈76.5
Agent/工具调用Qwen3.5-35B-A3BICCoding≈76.8(Agent 最强版,性能提升>60%)
中文能力全系列 ≈92.3CLUE/SuperCLUE 测试:全系列最强
多模态/长文本Qwen3.5-397B-A17BMMNU≈85.0,1M 上下文无损

2. 速度与效率对比(32K 上下文)

能力维度最佳选择说明
解码吞吐量Qwen3.5-397B-A17B8.6×Qwen3-Max,快得多的场景
长上下文效率Qwen3.5-27B/35B-A3B256K 下≈19.0×(超大型模型)
推理成本Qwen3.5-4B比 Qwen3-Max 低 60%,极低成本

3. 实际部署推荐(2026 年)

个人开发者/边缘计算
  • 0.8B: CPU/GPU 均可跑,0.4 GB 显存需求
  • 2B: 移动端/IoT、低延迟对话
  • 4B: 轻量 Agent、多模态基座(推荐)
  • 9B: 性价比通用、服务器部署
企业/开发者环境
  • 27B: 代码/指令微调首选,推理快,部署简单
  • 35B-A3B: Agent 深度推理、>24GB 显存可跑
  • 122B-A10B: 知识密集/多模态/视频处理(接近旗舰)
  • 397B-A17B: 企业级 AI 基座、全场景通用
测试建议
测试场景推荐方案理由
综合性能测试397B-A17B综合能力最强,对标 GPT-5.2
代码能力测试27BHumanEval≈89.3、SWE-bench≈76.5
Agent 工具调用35B-A3BICCoding≈76.8、性能提升>60%
中文能力测试全系列 ≈92.3全系列最强,CLUE/SuperCLUE 最佳
多模态/长文本测试397B-A17BMMNU≈85.0、1M 上下文无损

六、选型决策树(简化版)

用户选择 → 个人设备? ├── 是 → 选 0.8B/2B/4B(小巧便携,推理快) └── 否 → 企业环境? ├── 代码/工程部署 → 选 27B(稠密最强、部署简单) ├── Agent 深度推理 → 选 35B-A3B(性能提升>60%) ├── 知识密集/视频处理 → 选 122B-A10B(性价比>60%) └── 全场景 AI 基座 → 选 397B-A17B(全能王者) 

七、注意事项

显存规划

  • 4B: 8 GB FP16 ≈ 2 GB 4bit,适合单卡部署
  • 9B: 18 GB FP16 ≈ 4.5 GB 4bit
  • 35B-A3B: 6 GB FP16 ≈ 1.5 GB 4bit(Agent 最强版)
  • 122B-A10B: 20 GB FP16 ≈ 5 GB 4bit(接近旗舰)
  • 397B-A17B: 34 GB FP16 ≈ 8.5 GB 4bit(企业级基座)

部署工具推荐

场景推荐工具
推理加速vLLM、TGI
模型服务Transformers、阿里云 PAI、华为云 ModelArts
多模态支持需额外 MMProj 文件(如 mmproj-F16.gguf)

语言与版本信息

  • 最新测试: 2026.3(Qwen3.5-4B)
  • 开源矩阵: 截至 2026 年 3 月 3 日
  • 量化格式: IQ、Q、K-means、UD 动态等方法

Read more

【PyTorch】2024保姆级安装教程-Python-(CPU+GPU详细完整版)-

【PyTorch】2024保姆级安装教程-Python-(CPU+GPU详细完整版)-

一、准备工作 1. pytorch需要python3.6及以上的python版本 2. 我是利用Anaconda来管理我的python。可自行安装Anaconda。 3. Anaconda官网 Free Download | Anaconda 具体Anaconda安装教程可参考 https://blog.ZEEKLOG.net/weixin_43412762/article/details/129599741?fromshare=blogdetail&sharetype=blogdetail&sharerId=129599741&sharerefer=PC&sharesource=2201_75436278&sharefrom=from_link 二、pytorch介绍 安装 PyTorch 时,可以选择在 CPU 或

By Ne0inhk
【实用工具】无需安装!JupyterLab Online 在线运行 Python 代码(附完整教程)

【实用工具】无需安装!JupyterLab Online 在线运行 Python 代码(附完整教程)

【实用工具】无需安装!JupyterLab Online 在线运行 Python 代码(附完整教程) 文章目录 * 【实用工具】无需安装!JupyterLab Online 在线运行 Python 代码(附完整教程) * 一、为什么推荐JupyterLab Online? * 二、JupyterLab Online 完整使用教程(以运行matplotlib绘图代码为例) * 1. 进入在线环境 * 2. 创建Python文件 * 3. 运行代码(以绘图代码为例) * 4. 保存/下载文件(关键!) * 5. 关闭/退出 * 三、适用场景 & 注意事项 * ✅ 适用场景 * ❗ 注意事项 * 四、总结 一、为什么推荐JupyterLab Online?

By Ne0inhk

基于 Python 的 ADS 自动化仿真框架与 API 使用指南

1. 自动化数据提取工具库详解 为了简化 ADS 仿真程控的开发难度,我提供了一个通用的自动化工具库 auto_simulator.py。该工具库封装了从环境配置、参数更新、仿真运行到结果提取的全流程,使得用户只需关注“如何将参数应用到电路”这一核心逻辑。 """ 通用自动化仿真模块 提供通用的ADS仿真自动化框架,支持批量参数扫描和结果提取。 用户只需实现参数更新接口即可使用。 """import pandas as pd import numpy as np import json import os from pathlib import Path from abc import ABC, abstractmethod from typing import Dict,

By Ne0inhk
Python + uiautomator2 手机自动化控制教程

Python + uiautomator2 手机自动化控制教程

简介 uiautomator2 是比 ADB 更强大的 Android 自动化框架,支持元素定位、控件操作、应用管理等高级功能。本教程适合需要更精细控制的开发者。 一、环境准备 1.1 前置要求 * Python 3.6 或更高版本 * Android 手机(需开启开发者模式和 USB 调试) * USB 数据线 * 已安装 ADB 工具(参考第一篇教程) 1.2 检查 Python 环境 python --version # 应显示 Python 3.6 或更高版本 1.3 检查 ADB 连接 adb devices

By Ne0inhk