环境注意事项
llama.cpp 预编译包可能暂不支持 CUDA 12.6,编译过程存在多种依赖配置问题。
命令行加载多模态模型
llama-mtmd-cli -m Qwen2.5-VL-3B-Instruct-q8_0.gguf --mmproj Qwen2.5-VL-3B-Instruct-mmproj-f16.gguf -p "Describe this image." --image ./car-1.jpg
模型主 gguf 文件要和 mmproj 文件从同一个库下载,否则会有兼容问题,建议从 ggml 的官方库下载。 Multimodal GGUFs 官方库
Python 接口加载多模态模型
参考官方文档,要使用 LlamaChatHandler 类,官方已经写好了不少多模态模型的加载类,比如 qwen2.5vl 的写法:
from llama_cpp import Llama
# 示例:初始化模型加载逻辑
llm = Llama(model_path="model.gguf", mmproj_path="mmproj.gguf")

