llama.cpp 加载多模态 GGUF 模型

llama.cpp 加载多模态 GGUF 模型支持命令行与 Python 接口两种模式。使用时需确保模型主文件与 mmproj 文件来自同一仓库以保证兼容性。Python 调用需实例化 Llama 类，命令行则通过参数指定模型路径。编译或运行前需注意 CUDA 版本支持情况及依赖配置。

PhpPioneer发布于 2026/4/5更新于 2026/6/117 浏览

llama.cpp 预编译包可能暂不支持 CUDA 12.6，编译过程存在多种依赖配置问题。

llama-mtmd-cli -m Qwen2.5-VL-3B-Instruct-q8_0.gguf --mmproj Qwen2.5-VL-3B-Instruct-mmproj-f16.gguf -p "Describe this image." --image ./car-1.jpg

模型主 gguf 文件要和 mmproj 文件从同一个库下载，否则会有兼容问题，建议从 ggml 的官方库下载。 Multimodal GGUFs 官方库

参考官方文档，要使用 LlamaChatHandler 类，官方已经写好了不少多模态模型的加载类，比如 qwen2.5vl 的写法：

from llama_cpp import Llama
# 示例：初始化模型加载逻辑
llm = Llama(model_path="model.gguf", mmproj_path="mmproj.gguf")

更多推荐文章