llama.cpp 加载多模态 GGUF 模型

llama.cpp 命令行与 Python 接口加载多模态 GGUF 模型的配置方法。包含 Qwen2.5-VL 模型调用示例，强调主模型与投影文件需从同一来源下载以确保兼容。涉及 CUDA 版本注意事项及官方文档参考。

竹影清风发布于 2026/4/9更新于 2026/7/2033 浏览

llama.cpp 预编译包目前可能不支持 CUDA 12.6，编译过程需注意相关依赖问题。llama-cpp-python 同样需要自行编译。

使用 llama-mtmd-cli 命令加载模型。

llama-mtmd-cli -m Qwen2.5-VL-3B-Instruct-q8_0.gguf --mmproj Qwen2.5-VL-3B-Instruct-mmproj-f16.gguf -p "Describe this image." --image ./car-1.jpg

注意：模型主 gguf 文件和 mmproj 文件建议从同一来源下载（如 ggml 官方库），否则可能存在兼容性问题。

参考官方文档使用 LlamaChatHandler 类。

from llama_cpp import Llama
# 后续初始化逻辑请参考官方文档

更多推荐文章