llama.cpp加载多模态gguf模型

优质文章学习记录

07 Apr 2026 — 1 min read

llama.cpp预编译包还不支持cuda12.6

llama.cpp的编译，也有各种坑

llama.cpp.python的也需要编译

llama.cpp命令行加载多模态模型

llama-mtmd-cli -m Qwen2.5-VL-3B-Instruct-q8_0.gguf --mmproj Qwen2.5-VL-3B-Instruct-mmproj-f16.gguf -p "Describe this image." --image ./car-1.jpg

**模型主gguf文件要和mmporj文件从一个库里下载，否则会有兼容问题，建议从ggml的官方库里下载
Multimodal GGUFs官方库

llama.cpp.python加载多模态模型

看官方文档
要使用LlamaChatHandler类，官方已经写好了不少多模态模型的加载类，比如qwen2.5vl的写法：

from llama_cpp import Llama

极致压缩：Whisper.cpp 量化版本清单与 ggml 格式模型下载

Whisper.cpp 量化模型下载指南 Whisper.cpp 是 OpenAI Whisper 语音识别模型的高效 C++ 实现，支持量化技术来减小模型尺寸，实现“极致压缩”。量化通过降低模型参数的精度（如从 32 位浮点数到 4 位整数）来减少存储和计算需求，同时保持合理的准确性。ggml 格式是一种轻量级模型格式，专为资源受限设备优化。以下信息基于 Whisper.cpp 官方 GitHub 仓库（真实可靠），我将逐步引导您获取量化版本清单和下载链接。 1. 量化版本清单 Whisper.cpp 支持多种量化级别，每种对应不同的压缩率和精度权衡。以下是常见量化版本清单（基于最新官方数据）： * q4_0：4 位量化，极致压缩，模型尺寸最小，适合内存受限设备（如嵌入式系统）。精度损失较高。

Stable Diffusion模型下载神器：国内免梯高速下载终极指南

在AI绘画创作的道路上，获取优质模型往往是第一道门槛。传统下载方式让无数创作者在网络限制和复杂配置中苦苦挣扎。今天，我要向你推荐一款专为国内用户设计的模型下载神器，它将彻底改变你的模型获取体验。【免费下载链接】sd-webui-model-downloader-cn 项目地址: https://gitcode.com/gh_mirrors/sd/sd-webui-model-downloader-cn 🚀 核心功能揭秘这款工具拥有四大核心优势，让模型下载变得前所未有的简单：智能路径识别 - 系统自动识别模型类型并选择正确的存储路径，无需手动配置。无论是Checkpoint、LoRA还是VAE模型，都能精准送达目标文件夹。双重下载引擎 - 优先使用aria2c进行多线程高速下载，未安装则自动切换至curl基础下载，确保下载成功率。模型预览系统 - 在下载前即可查看模型的详细信息，包括触发词、作者标签等关键信息，避免下载不合适的模型。图片自动保存 - 除了模型文件本身，工具还会自动下载并保存模型的预览图片，方便后续快速识别。 📁 实战应用场景新手入门

终极指南：如何用WhisperX实现70倍速AI语音转文字？

终极指南：如何用WhisperX实现70倍速AI语音转文字？【免费下载链接】whisperXWhisperX: Automatic Speech Recognition with Word-level Timestamps (& Diarization) 项目地址: https://gitcode.com/gh_mirrors/wh/whisperX WhisperX是一款革命性的语音识别工具，它结合了先进的AI技术，能够以惊人的70倍速将语音转换为文字，同时提供精确的词级时间戳和说话人区分功能。无论是处理会议录音、播客内容还是视频字幕制作，WhisperX都能为你节省大量时间和精力。 🚀 WhisperX的核心优势 WhisperX不仅仅是一个普通的语音转文字工具，它融合了多项先进技术，使其在速度和准确性上都表现出色： * 70倍速处理：相比传统方法，WhisperX能够以惊人的速度完成语音转文字任务 * 词级时间戳：精确到每个词语的开始和结束时间，方便后续编辑和分析 * 说话人区分：自动识别不同说话人，使对话内容更清晰 * 高准确率：采用先进的语音识别模型，

一文熟悉新版llama.cpp使用并本地部署LLAMA

0. 简介关于UCloud(优刻得)旗下的compshare算力共享平台 UCloud(优刻得)是中国知名的中立云计算服务商，科创板上市，中国云计算第一股。 Compshare GPU算力平台隶属于UCloud，专注于提供高性价4090算力资源，配备独立IP，支持按时、按天、按月灵活计费，支持github、huggingface访问加速。使用下方链接注册可获得20元算力金，免费体验10小时4090云算力 https://www.compshare.cn/?ytag=GPU_lovelyyoshino_LZEEKLOG_ZEEKLOG_display 最近是快到双十一了再给大家上点干货。去年我们写了一个大模型的系列，经过一年，大模型的发展已经日新月异。这一次我们来看一下使用llama.cpp这个项目，其主要解决的是推理过程中的性能问题。主要有两点优化： * llama.cpp 使用的是 C 语言写的机器学习张量库 ggml llama.cpp 提供了模型量化的工具此项目的牛逼之处就是没有GPU也能跑LLaMA模型。llama.