LLM-AWQ多模态基准:10个INT4量化模型在20项任务上的全面评估
在大型语言模型和视觉语言模型日益普及的今天,AWQ(Activation-aware Weight Quantization)技术为模型压缩与加速提供了革命性解决方案。本文深入分析LLM-AWQ在10个INT4量化模型上的20项多模态任务基准测试结果,为开发者和研究人员提供全面的性能评估指南。
什么是AWQ量化技术?
AWQ是一种激活感知权重量化技术,专门为大型语言模型和视觉语言模型设计。与传统的RTN量化相比,AWQ通过识别并保护关键权重,在INT4量化下实现了精度与效率的完美平衡。在awq/kernels/quantization/中,实现高效的CUDA内核,支持W4A16(4位权重、16位激活)量化,显著降低了模型的内存占用和计算需求。
上图展示了AWQ的核心创新:通过激活感知的权重缩放策略,将INT3量化的困惑度从43.2降低到13.0,同时保持良好的硬件效率。这种技术在tinychat/modules/fused_attn.py和tinychat/modules/fused_vision_attn.py中得到了高效实现。
多模态模型评估框架
评估涵盖了10个主流视觉语言模型,包括VILA-1.5系列(3B、8B、13B、40B)、NVILA-8B以及LLaVA等模型。测试任务包括20个不同的视觉语言理解基准:
视觉问答任务
- VQA-v2:通用视觉问答基准
- GQA:组合式视觉推理
- VizWiz:面向视障人士的视觉问答
- TextVQA:需要OCR理解的视觉问答
- ScienceQA:科学知识相关的视觉问答
多模态评估基准
- POPE:对象存在性评估
- MME:多模态评估基准
- MMBench:中文多模态基准
- MMBench-CN:中文多模态基准
- SEED:视频理解基准
专业领域任务
- AI2D:图表理解
- ChartQA:图表问答
- DocVQA:文档视觉问答
- MMMU_val:多学科多模态理解
- VideoMME:视频多模态评估
INT4量化模型性能分析
VILA-1.5系列模型表现
| 模型 | VQA-v2 | GQA | VizWiz | ScienceQA | TextVQA | POPE | MME | MMBench | MMBench-CN | SEED |
|---|---|---|---|---|---|---|---|---|---|---|
| VILA-1.5-3B FP16 | 80.4 | 61.5 | 53.5 | 69.0 | 60.4 | 85.9 | 1442.4 | 63.4 | 52.7 | 60.9 |
| VILA-1.5-3B AWQ-INT4 | 80.0 | 61.1 | 53.8 | 67.8 |

