环境说明
llama.cpp 预编译包目前可能尚不支持 CUDA 12.6。编译 llama.cpp 及其 Python 绑定(llama-cpp-python)时需注意相关依赖和配置问题。
命令行加载多模态模型
使用 llama-mtmd-cli 命令加载模型:
llama-mtmd-cli -m Qwen2.5-VL-3B-Instruct-q8_0.gguf --mmproj Qwen2.5-VL-3B-Instruct-mmproj-f16.gguf -p "Describe this image." --image ./car-1.jpg
注意:模型主 GGUF 文件要和 mmproj 文件从同一个库下载,否则会有兼容问题。建议从 ggml 官方库下载:Multimodal GGUFs 官方库。
Python 加载多模态模型
参考官方文档:llama-cpp-python 多模态文档。
要使用 LlamaChatHandler 类,官方已经写好了不少多模态模型的加载类,比如 qwen2.5vl 的写法:
from llama_cpp import Llama

