llama.cpp 加载多模态 GGUF 模型指南

llama.cpp 加载多模态 GGUF 模型的方法。内容包括命令行工具 llama-mtmd-cli 的使用示例及参数说明，以及 Python 库 llama-cpp-python 的导入方式。强调了模型主文件与投影文件需同源下载以避免兼容性问题，并提示了预编译包对 CUDA 版本的支持情况及 Python 库需自行编译的注意事项。

DotNetGuy发布于 2026/4/6更新于 2026/7/545 浏览

环境说明

llama.cpp 预编译包目前可能尚不支持 CUDA 12.6。编译 llama.cpp 及其 Python 绑定（llama-cpp-python）时需注意相关依赖和配置问题。

命令行加载多模态模型

使用 llama-mtmd-cli 命令加载模型：

llama-mtmd-cli -m Qwen2.5-VL-3B-Instruct-q8_0.gguf --mmproj Qwen2.5-VL-3B-Instruct-mmproj-f16.gguf -p "Describe this image." --image ./car-1.jpg

注意：模型主 GGUF 文件要和 mmproj 文件从同一个库下载，否则会有兼容问题。建议从 ggml 官方库下载：Multimodal GGUFs 官方库。

Python 加载多模态模型

参考官方文档：llama-cpp-python 多模态文档。

要使用 LlamaChatHandler 类，官方已经写好了不少多模态模型的加载类，比如 qwen2.5vl 的写法：

from llama_cpp import Llama

llama.cpp 加载多模态 GGUF 模型指南

环境说明

命令行加载多模态模型

Python 加载多模态模型

更多推荐文章

相关免费在线工具

更多推荐文章

相关免费在线工具

llama.cpp 加载多模态 GGUF 模型指南

环境说明

命令行加载多模态模型

Python 加载多模态模型

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具