注意事项
llama.cpp 预编译包可能尚不支持 CUDA 12.6,编译过程中存在多种兼容性问题,Python 版本也需要单独编译。
命令行加载
使用 llama-mtmd-cli 加载多模态模型示例:
llama-mtmd-cli -m Qwen2.5-VL-3B-Instruct-q8_0.gguf --mmproj Qwen2.5-VL-3B-Instruct-mmproj-f16.gguf -p "Describe this image." --image ./car-1.jpg
注意:模型主 GGUF 文件和 mmproj 文件建议从同一来源下载,否则会有兼容问题。可从 ggml 官方库获取:Multimodal GGUFs 官方库
Python 加载
参考官方文档:llama-cpp-python 文档
需使用 LlamaChatHandler 类,官方已提供部分多模态模型的加载类,例如 qwen2.5vl 的写法:
from llama_cpp import Llama

