llama.cpp 加载多模态 GGUF 模型

llama.cpp 加载多模态 GGUF 模型的方法，涵盖命令行工具 llama-mtmd-cli 的使用及 Python 库 llama-cpp-python 的集成方式。重点提示模型主文件与 mmproj 文件需保持来源一致以确保兼容性，并指出预编译包可能存在 CUDA 版本限制。

CoderByte发布于 2026/4/6更新于 2026/7/1951 浏览

llama-mtmd-cli -m Qwen2.5-VL-3B-Instruct-q8_0.gguf --mmproj Qwen2.5-VL-3B-Instruct-mmproj-f16.gguf -p "Describe this image." --image ./car-1.jpg

模型主 gguf 文件要和 mmproj 文件从一个库里下载，否则会有兼容问题，建议从 ggml 的官方库里下载 Multimodal GGUFs 官方库

要使用 LlamaChatHandler 类，官方已经写好了不少多模态模型的加载类，比如 qwen2.5vl 的写法：

from llama_cpp import Llama

更多推荐文章