注意事项
llama.cpp 预编译包目前可能尚不支持 CUDA 12.6,编译过程也存在一些常见问题。此外,llama-cpp-python 组件通常需要自行编译安装。
命令行加载多模态模型
使用 llama-mtmd-cli 命令加载模型。示例如下:
llama-mtmd-cli -m Qwen2.5-VL-3B-Instruct-q8_0.gguf --mmproj Qwen2.5-VL-3B-Instruct-mmproj-f16.gguf -p "Describe this image." --image ./car-1.jpg
注意:模型主 GGUF 文件必须与 mmproj 投影文件来自同一来源,否则可能出现兼容性问题。建议从 GGML 官方库下载相关文件: Multimodal GGUFs 官方库
Python 加载多模态模型
参考官方文档:llama-cpp-python 多模态模型支持。
需要导入 Llama 类,官方已提供部分多模态模型的加载处理类(如 Qwen2.5-VL)。
from llama_cpp import Llama

