llama.cpp 预编译包还不支持 CUDA 12.6
llama.cpp 的编译,也有各种坑
llama.cpp.python 的也需要编译
llama-mtmd-cli -m Qwen2.5-VL-3B-Instruct-q8_0.gguf --mmproj Qwen2.5-VL-3B-Instruct-mmproj-f16.gguf -p "Describe this image." --image ./car-1.jpg
模型主 gguf 文件要和 mmproj 文件从一个库里下载,否则会有兼容问题,建议从 ggml 的官方库里下载 Multimodal GGUFs 官方库
llama.cpp.python 加载多模态模型
要使用 LlamaChatHandler 类,官方已经写好了不少多模态模型的加载类,比如 qwen2.5vl 的写法:
from llama_cpp import Llama

