LLM-AWQ多模态基准：10个INT4量化模型在20项任务上的全面评估 | 极客日志

PythonAI算法

LLM-AWQ多模态基准：10个INT4量化模型在20项任务上的全面评估

综述由AI生成评估了AWQ INT4量化技术在10个多模态模型上的表现，涵盖VILA、NVILA等主流视觉语言模型。测试包含20项多模态任务基准，结果显示量化后平均精度损失小于1%，推理速度在RTX 4090上提升2.7至3.1倍。此外，INT4量化显著降低内存占用，使大模型能在Jetson Orin等边缘设备部署。文章还介绍了AWQ激活感知权重量化原理及具体部署流程，为开发者提供性能优化参考。

云间运维发布于 2026/3/28更新于 2026/5/2525 浏览

LLM-AWQ多模态基准：10个INT4量化模型在20项任务上的全面评估

在大型语言模型和视觉语言模型日益普及的今天，AWQ（Activation-aware Weight Quantization）技术为模型压缩与加速提供了革命性解决方案。本文深入分析LLM-AWQ在10个INT4量化模型上的20项多模态任务基准测试结果，为开发者和研究人员提供全面的性能评估指南。

什么是AWQ量化技术？

AWQ是一种激活感知权重量化技术，专门为大型语言模型和视觉语言模型设计。与传统的RTN量化相比，AWQ通过识别并保护关键权重，在INT4量化下实现了精度与效率的完美平衡。在awq/kernels/quantization/中，实现高效的CUDA内核，支持W4A16（4位权重、16位激活）量化，显著降低了模型的内存占用和计算需求。

上图展示了AWQ的核心创新：通过激活感知的权重缩放策略，将INT3量化的困惑度从43.2降低到13.0，同时保持良好的硬件效率。这种技术在tinychat/modules/fused_attn.py和tinychat/modules/fused_vision_attn.py中得到了高效实现。

多模态模型评估框架

评估涵盖了10个主流视觉语言模型，包括VILA-1.5系列（3B、8B、13B、40B）、NVILA-8B以及LLaVA等模型。测试任务包括20个不同的视觉语言理解基准：

视觉问答任务

VQA-v2：通用视觉问答基准
GQA：组合式视觉推理
VizWiz：面向视障人士的视觉问答
TextVQA：需要OCR理解的视觉问答
ScienceQA：科学知识相关的视觉问答

多模态评估基准

POPE：对象存在性评估
MME：多模态评估基准
MMBench：中文多模态基准
MMBench-CN：中文多模态基准
SEED：视频理解基准

专业领域任务

AI2D：图表理解
ChartQA：图表问答
DocVQA：文档视觉问答
MMMU_val：多学科多模态理解
VideoMME：视频多模态评估

INT4量化模型性能分析

VILA-1.5系列模型表现

模型	VQA-v2	GQA	VizWiz	ScienceQA	TextVQA	POPE	MME	MMBench	MMBench-CN	SEED
VILA-1.5-3B FP16	80.4	61.5	53.5	69.0	60.4	85.9	1442.4	63.4	52.7	60.9
VILA-1.5-3B AWQ-INT4	80.0	61.1	53.8	67.8

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

模型	AI2D	ChartQA	DocVQA	MMMU_val	SEED	TextVQA	VideoMME
NVILA-8B FP16	91.0	84.8	91.7	50.7	76.3	78.1	63.9
NVILA-8B AWQ-INT4	90.9	83.3	89.2	49.3	76.2	78.2	62.1

模型	FP16延迟(ms)	INT4延迟(ms)	加速比
LLaMA-3-8B	17.07	6.39	2.69x
VILA-7B	17.09	5.95	2.87x
NVILA-8B	16.12	5.97	2.70x

模型	FP16延迟(ms)	INT4延迟(ms)	加速比
LLaMA-3-8B	96.00	32.53	2.95x
VILA-7B	86.95	28.09	3.10x
VILA-13B	OOM	57.14	--

# 克隆仓库
git clone https://github.com/mit-han-lab/llm-awq
cd llm-awq
# 安装依赖
pip install -e .
# 量化视觉语言模型
python -m awq.entry --model_path /path/to/vila-model \
--w_bit 4 --q_group_size 128 \
--run_awq --dump_awq awq_cache/vila-w4-g128.pt

cd tinychat
python benchmark.py --model_type vila \
--model_path /path/to/vila-model \
--quant_path quant_cache/vila-w4-g128-awq.pt \
--precision W4A16

LLM-AWQ多模态基准：10个INT4量化模型在20项任务上的全面评估

LLM-AWQ多模态基准：10个INT4量化模型在20项任务上的全面评估

什么是AWQ量化技术？

多模态模型评估框架

视觉问答任务

多模态评估基准

专业领域任务

INT4量化模型性能分析

VILA-1.5系列模型表现

更多推荐文章

相关免费在线工具

大规模模型量化效果

NVILA-8B多模态评估

推理速度大幅提升

RTX 4090性能对比

Jetson Orin边缘设备表现

多图像处理能力

实际应用场景展示

艺术图像理解

建筑地标识别

动态场景分析

技术实现细节

AWQ量化流程

多模态支持架构

部署与使用指南

快速开始

基准测试运行

总结与展望

更多推荐文章

相关免费在线工具

LLM-AWQ多模态基准：10个INT4量化模型在20项任务上的全面评估

LLM-AWQ多模态基准：10个INT4量化模型在20项任务上的全面评估

什么是AWQ量化技术？

多模态模型评估框架

视觉问答任务

多模态评估基准

专业领域任务

INT4量化模型性能分析

VILA-1.5系列模型表现

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

大规模模型量化效果

NVILA-8B多模态评估

推理速度大幅提升

RTX 4090性能对比

Jetson Orin边缘设备表现

多图像处理能力

实际应用场景展示

艺术图像理解

建筑地标识别

动态场景分析

技术实现细节

AWQ量化流程

多模态支持架构

部署与使用指南

快速开始

基准测试运行

总结与展望

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具