llama.cpp 加载多模态 GGUF 模型指南

llama.cpp 加载多模态 GGUF 模型需注意预编译包对 CUDA 版本的支持情况，编译过程可能存在兼容性问题。命令行模式可使用 llama-mtmd-cli 指定模型及图片路径进行推理。Python 模式下需安装 llama-cpp-python 并参考官方文档配置 LlamaChatHandler 类。模型文件建议从官方 GGUF 库获取以确保兼容性。

leon发布于 2026/3/24更新于 2026/5/159 浏览

注意事项

llama.cpp 预编译包可能尚不支持 CUDA 12.6，编译过程中存在多种兼容性问题，Python 版本也需要单独编译。

命令行加载

使用 llama-mtmd-cli 加载多模态模型示例：

llama-mtmd-cli -m Qwen2.5-VL-3B-Instruct-q8_0.gguf --mmproj Qwen2.5-VL-3B-Instruct-mmproj-f16.gguf -p "Describe this image." --image ./car-1.jpg

注意：模型主 GGUF 文件和 mmproj 文件建议从同一来源下载，否则会有兼容问题。可从 ggml 官方库获取：Multimodal GGUFs 官方库

Python 加载

参考官方文档：llama-cpp-python 文档

需使用 LlamaChatHandler 类，官方已提供部分多模态模型的加载类，例如 qwen2.5vl 的写法：

from llama_cpp import Llama

llama.cpp 加载多模态 GGUF 模型指南

注意事项

命令行加载

Python 加载

更多推荐文章

相关免费在线工具

更多推荐文章

相关免费在线工具

llama.cpp 加载多模态 GGUF 模型指南

注意事项

命令行加载

Python 加载

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具