Qwen VL 本地部署 llama.cpp 和webui 兼容多种视觉多模态理解模型
1.准备:
操作系统:WIN10 ,i7-4750M,16GRAM。
框架:llama.cpp(下载地址:Releases · ggml-org/llama.cpp · GitHub)下载版本:b5342以上,文章采用“llama-b5342-bin-win-cpu-x64.zip”。
模型文件:Qwen2.5-VL-3B-Instruct-Q8_0.gguf和mmproj-model-f16.gguf(下载地址:魔搭社区),注意模型包括基础模型文件和mmproj型文件两个文件。
浏览器:chrome内核浏览器,旧版本会导致webui乱码。
2.常用模型下载:
根据电脑配置属性进行模型下载,登录(魔搭社区),点击左侧,视觉多模态理解模型,输入GGUF过滤大模型格式。

常用视觉多模态模型:
Qwen2 VL
Qwen2.5 VL
glm-edge
gemma3
Llama
llava
mistral
minicpmv
moondream
上述均可以下载到。
3.大模型服务运行
STEP1.解压llama-b5342-bin-win-cpu-x64.zip。
STEP2.按键win+R输入cmd,回车,进入llama-b5342-bin-win-cpu-x64解压路径。
STEP3.将Qwen2.5-VL-3B-Instruct-Q8_0.gguf和mmproj-model-f16.gguf拷贝到入llama-b5342-bin-win-cpu-x64解压路径。
STEP4.输入指令命令(注意模型文件的拷贝目录)。
llama-server.exe -m Qwen2.5-VL-3B-Instruct-Q8_0.gguf --mmproj mmproj-model-f16.gguf
回车后等待加载完成。
4.大模型访问
浏览器输入:http://127.0.0.1:8080/,进行访问。

点击右下角图标,上传图片文件,点击发送,OK。
5.大模型效果
当前环境配置输出大概3.5token/S左右,效果供参考。
具体的llama.cpp加速方式,请移步互联网自行搜索。