Text Generation WebUI 模型加载器(Model Loaders)选项详解
不同加载器的本质是不同的模型运行后端或适配层。它们各自针对特定的模型格式、推理后端进行优化,对应不同的量化方案与硬件适配策略。核心目的只有一个:让 WebUI 能正确加载并高效运行各种格式的 LLM 模型。
1. Transformers —— 原生兼容方案
- 原理与定位:基于 Hugging Face Transformers 库的原生加载器,是最基础、兼容性最广的方式。
- 适配模型:未量化的原生 HF 格式模型(如
.bin/.safetensors的 Llama-2、Mistral、ChatGLM 等),也支持 8bit/4bit 的 BitsAndBytes 量化模型。 - 优势与限制:
- 无需额外量化处理,直接加载原始模型;
- 兼容性最强,几乎支持所有 HF 生态架构(LLaMA、GPT-2、BERT 等);
- 注意:显存占用最高,无量化优化,适合显存充裕的场景。
- 适用场景:拥有充足显存(如 RTX 3090/4090 以上),追求模型完整精度,或测试新发布的未量化模型及微调验证。
2. ExLlamav2 —— 极致速度之选
- 原理与定位:基于 ExLlamaV2 库的高性能加载器,专为 LLaMA 系列模型优化的 EXL2 量化格式设计(ExLlamaV2 是 ExLlama 的升级版)。
- 适配模型:EXL2 量化格式的模型(文件名通常含
exl2),如Llama-2-7B-exl2、Mistral-7B-exl2。 - 优势与限制:
- 显存占用极低(支持 2-6bit 自定义量化精度),生成速度极快,比 Transformers + GPTQ 快数倍;
- 仅适配 NVIDIA GPU(依赖 CUDA),不支持 CPU 或 AMD;
- 对 LLaMA 系模型优化极致,是目前 NVIDIA 卡下性价比最高的加载器之一。
- 适用场景:NVIDIA GPU 用户,追求极致的速度和显存效率,主要使用 LLaMA/Mistral 系列模型。
3. ExLlamav2_HF —— 兼容封装版
- 原理与定位:在 ExLlamaV2 引擎基础上,模拟 Hugging Face Transformers 的接口。
- 适配模型:同上,EXL2 量化格式模型。
- 优势与限制:
- 接近原生 ExLlamaV2 性能,但增加了一层封装;
- 能让依赖 HF 接口的插件(如某些 RAG、LoRA 插件)与 ExLlamaV2 后端兼容。
- 适用场景:如果你用到需要 transformers API 的功能(比如特定扩展),但又想用 ExLlamaV2 的速度,就选这个。
4. AutoGPTQ —— 平衡之选
- 原理与定位:基于 Hugging Face 官方支持的 auto-gptq 库,适配 GPTQ 量化格式。
- 适配模型:GPTQ 量化格式模型(文件名通常含
gptq),如Llama-2-13B-GPTQ、Qwen-7B-GPTQ。 - 优势与限制:

