llama-cpp-python用法，模型加载gpu踩坑全记录

优质文章学习记录

11 Apr 2026 — 3 min read

llama-cpp-python的主分支貌似很久不更新了，直接pip install用有问题，因为安装时候他会自动编译最新版的llama-cpp，但是这个llama-cpp接口变了的话而llama-cpp-python没及时更新就会报错。因此我用的另一个分支：https://github.com/JamePeng/llama-cpp-python

模型要加载到gpu有几种方法，加载到核显，以及使用cuda。一般使用cuda，我也想过加载到核显，因为我用lamasudio就能加载到核显，感觉很强，自己也想做然后发现其实挺麻烦的就放弃了，也没必要，用cuda独显才是主流的。

然后显卡不需要太好，我就两个机器，1660ti 1080ti都能跑的挺不错。

显卡要装两个东西

1、显卡驱动，这个直接升级到最新就行了，显示支持cuda 13就够了，

如果要手动下载：

官网地址：https://www.nvidia.com/Download/index.aspx

2、CUDA Toolkit（nvcc ），需要达到13.0

下载地址（NVIDIA 官方稳定版）：https://developer.nvidia.com/

如果CUDA Toolkit存在旧版本需要先卸载再安装

安装完成后检查两个cuda环境变量是否自动加了

# 验证nvcc（编译器）版本（核心！必须显示13.2） nvcc -V

# 验证驱动和CUDA运行时兼容性 nvidia-smi

nvidia-smi输出右上角显示「CUDA Version: 13.2」，驱动版本≥535.54.03。

nvcc -V输出示例（关键看 release 13.2）：plaintext

nvcc: NVIDIA (R) Cuda compiler driver Copyright (c) 2005-2023 NVIDIA Corporation Built on Tue_Aug_15_22:02:13_Pacific_Daylight_Time_2023 Cuda compilation tools, release 13.2, V13.2.152 Build cuda_13.2.r13.2/compiler.33053471_0

然后，安装llama-cpp-python，最好的办法就是下载他的release的轮子，我下载的是llama_cpp_python-0.3.24+cu130.basic-cp310-cp310-win_amd64.whl
cu130就是cuda版本，cp310就是python3.10
安装后，就可以用了。

我用的QWEN视觉模型，加载到gpu快了不少，。要注意这个需要加载两个gguf文件。写法也比较特殊（摸索了很久）

以下是一个测试脚本：

#!/usr/bin/env python3 # -*- coding: utf-8 -*- """ 加载两个 GGUF（主模型 + 视觉编码器 mmproj）。 """ import os from llama_cpp import Llama import llama_cpp.llama_chat_format as llama_chat_format # ============ 路径配置（按你本机修改） ============ # 主模型 GGUF（文本 + 推理） MODEL_PATH = os.path.join( os.path.dirname(__file__), "..", "LamacppServer", "models", "Qwen3-VL-4B-Instruct-Q4_K_M.gguf" ) # 视觉编码器 GGUF（mmproj，处理图像）；须与主模型配套（同尺寸/同系列） MMPROJ_PATH = os.path.join( os.path.dirname(__file__), "..", "LamacppServer", "models", "mmproj-Qwen3-VL-4B-Instruct-F16.gguf" ) # 也可直接写绝对路径，例如： MODEL_PATH = r".\models\Qwen3-VL-4B-Instruct-Q4_K_M.gguf" MMPROJ_PATH = r".\models\mmproj-Qwen3-VL-4B-Instruct-F16.gguf" def main(): # 确保两个文件存在 if not os.path.isfile(MODEL_PATH): raise FileNotFoundError(f"主模型不存在: {MODEL_PATH}") if not os.path.isfile(MMPROJ_PATH): raise FileNotFoundError(f"视觉模型(mmproj)不存在: {MMPROJ_PATH}") chat_handler = llama_chat_format.Qwen25VLChatHandler( clip_model_path=MMPROJ_PATH, verbose=True, ) # 纯 CPU：n_gpu_layers=0，不卸载任何层到 GPU llm = Llama( model_path=MODEL_PATH, chat_handler=chat_handler, # clip_model_path=MMPROJ_PATH, n_gpu_layers=-1, # 全部在 CPU n_ctx=10240, # 上下文长度，可按需调大 n_threads=os.cpu_count() or 4, verbose=True, ) # ---------- 图文对话示例（可选） ---------- # 若需“图+文”输入，把下面几行取消注释并改成你的图片路径 import base64 image_path = "test.png" # 或任意图片路径 with open(image_path, "rb") as f: b64 = base64.b64encode(f.read()).decode() url = f"data:image/png;base64,{b64}" image_path = "test2.png" # 或任意图片路径 with open(image_path, "rb") as f: b64 = base64.b64encode(f.read()).decode() url2 = f"data:image/png;base64,{b64}" resp2 = llm.create_chat_completion( messages=[{ "role": "user", "content": [ { "type": "text", "text": "请告诉我 图1和 图2 分别是什么"}, { "type": "image_url", "image_url": { # 注意这里的格式：需要添加data URI前缀 "url": f"{url}" } }, { "type": "image_url", "image_url": { # 注意这里的格式：需要添加data URI前缀 "url": f"{url2}" } } ] }], max_tokens=10000, ) print(resp2["choices"][0]["message"]["content"]) if __name__ == "__main__": main()

【选型】地瓜机器人RDK系列选型指南：X3 vs X5 vs S100 vs S100P（含资源对比图）

在机器人开发领域，地瓜机器人（D-Robotics）凭借其“RDK（Robot Developer Kit）”系列开发套件，已成为众多开发者和创业团队的首选平台。从轻量级边缘计算到高性能具身智能，地瓜机器人已构建了覆盖多场景的完整产品线，致力于为开发者提供高性价比、高集成度、高扩展性的解决方案。其核心芯片“旭日®”系列持续迭代，推动AI与机器人深度融合，助力实现从感知到控制的全链路自主化。本文将深入对比当前主流的四款RDK开发套件：RDK X3、RDK X5、RDK S100、RDK S100P，并提供详细的资源对比图与应用场景分析，帮助你快速完成技术选型，降低开发门槛，提升项目落地效率。一、产品定位概览在深入参数前，先明确每款产品的核心定位，以便根据项目阶段、预算和性能需求做出合理选择。 ● RDK X3：轻量级边缘AI计算模组，适合入门级机器人、智能摄像头、无人机等低功耗、小体积场景。是初学者和教育项目的理想起点，具备基础AI推理能力，可快速搭建视觉识别系统。 ● RDK

JFM | 空军工程大学宗豪华、吴云等：基于FPGA的深度强化学习框架实现超音速闭环智能流动控制实验

基于高速实验深度强化学习框架的超音速闭环流动控制 Closed-loop supersonic flow control with a high-speed experimental deep reinforcement learning framework 宗豪华¹，吴云¹，李金平²，苏志²，梁华² 引用格式：H. Zong, Y. Wu, J. Li, Z. Su, and H. Liang. Closed-loop supersonic flow control with a high-speed experimental deep reinforcement learning framework[J], Journal of Fluid Mechanics, 2025, 1009: A3.

Flutter 组件 upnp_client 的鸿蒙适配实战 - 实现跨设备服务发现、智能家居自动关联与多媒体投屏协议控制

欢迎加入开源鸿蒙跨平台社区：https://openharmonycrossplatform.ZEEKLOG.net Flutter 组件 upnp_client 的鸿蒙适配实战 - 实现跨设备服务发现、智能家居自动关联与多媒体投屏协议控制前言在“万物互联”的愿景下，鸿蒙系统（OpenHarmony）最核心的武器就是跨设备协同能力。然而，如何让你的 Flutter 应用在复杂的家庭或办公内网中，自动发现并操控那些非鸿蒙生态但同样广泛分布的设备（如：DLNA 智能电视、家用路由器、网络打印机、甚至是 NAS 存储）？ UPnP（Universal Plug and Play）协议此时扮演了全局搜索的关键角色。作为一套基于 SSDP 和 HTTP 处理发现与控制的老牌协议，它依然是局域网互联互通的“基础设施”。 upnp_client 为 Flutter

从人类视频到机器人跳舞：BeyondMimic 全流程解析与 rl_sar 部署实践

0. 前言让人形机器人学会跳舞，听起来像是科幻电影中的场景，但在强化学习和运动模仿技术的推动下，这件事正在变得越来越现实。本文将完整介绍一条从"人类 RGB 视频"到"真实机器人跳舞"的技术链路：首先通过视觉算法从视频中提取人体运动轨迹，然后将人体模型重定向到机器人关节空间，接着在仿真环境中进行强化学习训练，最后在 MuJoCo 中验证并部署到真实的 Unitree G1 人形机器人上。整条流程涉及四个核心开源项目：GVHMR（视频到人体模型）、GMR（人体到机器人重定向）、BeyondMimic（强化学习训练框架）、以及 rl_sar（仿真验证与真机部署框架）。本文不仅会逐一拆解每个环节的原理和操作步骤，还会深入分析 BeyondMimic 的算法设计，并详细记录将训练产物迁移到 rl_sar 项目中进行 sim2sim 和 sim2real 部署时遇到的关键问题与解决方案。下图展示了

Read more

【选型】地瓜机器人RDK系列选型指南：X3 vs X5 vs S100 vs S100P（含资源对比图）

JFM | 空军工程大学宗豪华、吴云等：基于FPGA的深度强化学习框架实现超音速闭环智能流动控制实验

Flutter 组件 upnp_client 的鸿蒙适配实战 - 实现跨设备服务发现、智能家居自动关联与多媒体投屏协议控制

从人类视频到机器人跳舞：BeyondMimic 全流程解析与 rl_sar 部署实践