llama.cpp 加载多模态 GGUF 模型方法

llama.cpp 预编译包目前可能尚不支持 CUDA 12.6，编译过程也存在一些常见问题。此外，llama-cpp-python 组件通常需要自行编译安装。

使用 llama-mtmd-cli 命令加载模型。示例如下：

llama-mtmd-cli -m Qwen2.5-VL-3B-Instruct-q8_0.gguf --mmproj Qwen2.5-VL-3B-Instruct-mmproj-f16.gguf -p "Describe this image." --image ./car-1.jpg

注意：模型主 GGUF 文件必须与 mmproj 投影文件来自同一来源，否则可能出现兼容性问题。建议从 GGML 官方库下载相关文件： Multimodal GGUFs 官方库

参考官方文档：llama-cpp-python 多模态模型支持。需要导入 Llama 类，官方已提供部分多模态模型的加载处理类（如 Qwen2.5-VL）。

from llama_cpp import Llama

llama.cpp 预编译包目前可能尚不支持 CUDA 12.6，编译过程也存在一些常见问题。此外，llama-cpp-python 组件通常需要自行编译安装。

使用 llama-mtmd-cli 命令加载模型。示例如下：

llama-mtmd-cli -m Qwen2.5-VL-3B-Instruct-q8_0.gguf --mmproj Qwen2.5-VL-3B-Instruct-mmproj-f16.gguf -p "Describe this image." --image ./car-1.jpg

注意：模型主 GGUF 文件必须与 mmproj 投影文件来自同一来源，否则可能出现兼容性问题。建议从 GGML 官方库下载相关文件： Multimodal GGUFs 官方库

参考官方文档：llama-cpp-python 多模态模型支持。需要导入 Llama 类，官方已提供部分多模态模型的加载处理类（如 Qwen2.5-VL）。

from llama_cpp import Llama

更多推荐文章