环境说明
llama.cpp 预编译包目前可能不支持 CUDA 12.6,编译过程需注意相关依赖问题。llama-cpp-python 同样需要自行编译。
命令行加载多模态模型
使用 llama-mtmd-cli 命令加载模型。
llama-mtmd-cli -m Qwen2.5-VL-3B-Instruct-q8_0.gguf --mmproj Qwen2.5-VL-3B-Instruct-mmproj-f16.gguf -p "Describe this image." --image ./car-1.jpg
注意:模型主 gguf 文件和 mmproj 文件建议从同一来源下载(如 ggml 官方库),否则可能存在兼容性问题。
Python 加载多模态模型
参考官方文档使用 LlamaChatHandler 类。
from llama_cpp import Llama
# 后续初始化逻辑请参考官方文档

