openclaw使用llama.cpp 本地大模型部署教程

优质文章学习记录

07 Apr 2026 — 4 min read

openclaw使用llama.cpp 本地大模型部署教程

本教程基于实际操作整理，适用于 Windows WSL2 环境

全程使用 openclaw 帮我搭建大模型

一、环境准备

1. 硬件要求

显卡	推荐模型	显存占用
GTX 1050 Ti (4GB)	Qwen2.5-3B Q4	~2.5GB
RTX 4060 (8GB)	Qwen2.5-7B Q4	~5GB
RTX 4090 (24GB)	Qwen2.5-32B Q4	~20GB

2. 安装编译工具（WSL Ubuntu）

sudoapt update sudoaptinstall -y cmake build-essential

二、下载和编译 llama.cpp

1. 克隆源码

mkdir -p ~/llama.cpp cd ~/llama.cpp git clone --depth 1 https://github.com/ggerganov/llama.cpp.git src

2. 编译

cd ~/llama.cpp/src mkdir build &&cd build cmake .. -DCMAKE_BUILD_TYPE=Release make -j$(nproc) llama-cli llama-server

编译完成后，可执行文件在 ~/llama.cpp/src/build/bin/ 目录下。

三、下载模型

1. 创建模型目录

mkdir -p ~/llama.cpp/models

2. 下载 GGUF 模型（使用国内镜像加速）

Qwen2.5-3B（适合 4GB 显存）：

curl -L -o ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \"https://hf-mirror.com/Qwen/Qwen2.5-3B-Instruct-GGUF/resolve/main/qwen2.5-3b-instruct-q4_k_m.gguf"

Qwen2.5-7B（适合 8GB 显存）：

curl -L -o ~/llama.cpp/models/qwen2.5-7b-instruct-q4_k_m.gguf \"https://hf-mirror.com/Qwen/Qwen2.5-7B-Instruct-GGUF/resolve/main/qwen2.5-7b-instruct-q4_k_m.gguf"

四、运行模型

方式一：命令行交互模式

cd ~/llama.cpp/src/build/bin ./llama-cli -m ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \ -c 4096\ --no-display-prompt

参数说明：

-m 模型路径
-c 上下文长度（默认 512，建议 4096）
-ngl GPU 层数（纯 CPU 可不加）

方式二：启动 API 服务

cd ~/llama.cpp/src/build/bin ./llama-server \ -m ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \ --host 0.0.0.0 \ --port 8080\ -c 4096

服务启动后访问：http://localhost:8080

五、API 调用方法

API 信息

项目	值
地址	`http://localhost:8080`
API Key	不需要（或随意填写）
兼容格式	OpenAI API

端点列表

端点	说明
`POST /v1/chat/completions`	聊天补全
`POST /v1/completions`	文本补全
`GET /health`	健康检查
`GET /`	Web 聊天界面

调用示例

curl

curl http://localhost:8080/v1/chat/completions \ -H "Content-Type: application/json"\ -d '{ "model": "qwen2.5-3b", "messages": [ {"role": "system", "content": "你是一个有帮助的助手。"}, {"role": "user", "content": "你好，介绍一下你自己"} ], "temperature": 0.7, "max_tokens": 512 }'

Python（OpenAI SDK）

from openai import OpenAI client = OpenAI( base_url="http://localhost:8080/v1", api_key="not-needed") response = client.chat.completions.create( model="qwen2.5-3b", messages=[{"role":"system","content":"你是一个有帮助的助手。"},{"role":"user","content":"你好"}], temperature=0.7, max_tokens=512)print(response.choices[0].message.content)

Node.js

const response =awaitfetch('http://localhost:8080/v1/chat/completions',{method:'POST',headers:{'Content-Type':'application/json'},body:JSON.stringify({model:'qwen2.5-3b',messages:[{role:'user',content:'你好'}]})});const data =await response.json(); console.log(data.choices[0].message.content);

六、常用参数说明

服务端参数（llama-server）

参数	说明	示例
`-m`	模型路径	`-m model.gguf`
`--host`	监听地址	`--host 0.0.0.0`
`--port`	端口	`--port 8080`
`-c`	上下文长度	`-c 4096`
`-ngl`	GPU 层数	`-ngl 99`（全部放 GPU）
`-np`	并行请求数	`-np 4`
`--api-key`	设置 API Key	`--api-key your-key`

API 请求参数

参数	说明	默认值
`temperature`	随机性（0-2）	0.7
`max_tokens`	最大生成长度	模型上限
`top_p`	核采样	1.0
`stream`	流式输出	false
`stop`	停止词	[]

七、常见问题

Q1: 报错 “CUDA out of memory”

减少 -ngl 数值，让部分层用 CPU 计算：

./llama-server -m model.gguf -ngl 20# 只放 20 层到 GPU

Q2: 中文乱码

PowerShell 执行：

chcp 65001

Q3: 如何后台运行服务？

nohup ./llama-server -m model.gguf --host 0.0.0.0 --port 8080> server.log 2>&1&

Q4: 如何设置 API Key 认证？

./llama-server -m model.gguf --api-key "your-secret-key"

调用时需要带上：

curl -H "Authorization: Bearer your-secret-key"...

Q5: 从其他设备访问

查看 WSL IP：hostname -I
使用该 IP 访问，如 http://172.x.x.x:8080

八、推荐模型

模型	大小	适合场景
Qwen2.5-3B-Instruct Q4	~2GB	轻量对话、低配设备
Qwen2.5-7B-Instruct Q4	~4.5GB	通用对话、代码
Qwen2.5-14B-Instruct Q4	~9GB	复杂推理
DeepSeek-R1-Distill-Qwen-7B Q4	~4.5GB	数学、逻辑推理
Mistral-7B-v0.3 Q5	~5GB	英文、代码

下载地址： https://hf-mirror.com（国内镜像）

九、文件结构

~/llama.cpp/ ├── src/ # llama.cpp 源码 │ └── build/ │ └── bin/ │ ├── llama-cli # 命令行工具 │ └── llama-server # API 服务 └── models/ # 模型存放目录 └── qwen2.5-3b-instruct-q4_k_m.gguf

十、快速启动脚本

创建 start-server.sh：

#!/bin/bashcd ~/llama.cpp/src/build/bin ./llama-server \ -m ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \ --host 0.0.0.0 \ --port 8080\ -c 4096\ -np 4

赋予执行权限：

chmod +x start-server.sh ./start-server.sh

教程整理于 2026-02-03
基于 llama.cpp b7917 + Qwen2.5-3B-Instruct

机器人 - 关于MIT电机模式控制

目录一、MIT电机模式简单介绍 1.1 简单介绍 1.2 MIT模式的控制参数 1.3 使用场景二、调试时建议 2.1 调试 2.2 问题定位一、MIT电机模式简单介绍 1.1 简单介绍 Mixed Integrated Torque为一种混合控制模式，在同一帧CAN数据里包含位置、速度、扭矩三类的闭环指令。驱动器里面把位置环、速度环、前馈扭矩相加，得到一个参考电流，然后再交给电流环完成精准扭矩输出。 1.2 MIT模式的控制参数参数含义取值范围（常见）说明kp位置比例系数（刚度）0 ~ 500 （单位视驱动器而定）kp = 0 时位置环失效，

74个低空无人机AI算法详解，总体精度达90%，公安执法、消防应急、水利、林业、能源电力、城建、市政、城管、工程、农业、生态

公安执法一、人员智能识别与管控聚焦人员相关的身份、行为、状态识别，核心服务于治安防控、人群管理、突发事件处置，是公安基层执法的核心应用方向： 1. 人员识别/计数：支持复杂场景（人群聚集、遮挡、移动）下的人员精准检测与数量统计，实时反馈人群密度，为大型活动安保、人群聚集风险管控提供数据支撑； 2. 人员异常聚焦识别：识别人员突然聚集、徘徊、逃窜、翻越护栏等异常行为，快速锁定可疑区域，触发执法预警； 3. 打架斗殴识别：精准检测肢体冲突、推搡、殴打等暴力行为，毫秒级触发预警并定位事发位置，助力执法人员快速处置，减少冲突升级； 4. 重点人员监控识别：对接公安重点人员数据库，通过人脸识别算法实现低空移动场景下的重点人员精准匹配与轨迹追踪，支持跨区域、动态化管控； 5. 人员属性识别：识别人员性别、年龄段、衣着特征、是否携带疑似管制器具 / 大件物品等属性信息，

一文读懂“JESD204B”之链路建立与xilinx IP仿真

一、初识 JESD204B 是由JEDEC（电子器件工程联合会）制定的高速串行接口标准，主要用于数据转换器（ADC/DAC）与数字处理器（如FPGA、ASIC）之间的数据传输。在JESD标准出来前，常用的是传统的LVDS接口：LVDS（Low-Voltage Differential Signaling，低压差分信号）是一种广泛应用的物理层电气标准，用于高速、低功耗的差分信号传输，但是在使用LVDS接口时，对阻抗和多通道时延要求比较严格，因为LVDS使用的是源同步接口，允许时钟和多个数据通道同时传输，时钟信号和数据保持确定的相位关系，同时由发送端（图中的外部器件）传输至接收端（比如FPGA）。接收端利用对端传送来的时钟信号作为采样时钟，对数据位进行采样。在采样过程中，只要保证接收端时钟信号与接收数据满足一定的建立/保持时间，数据即可被正确接收。图 1 源同步LVDS接口因此我们可以知道，LVDS对各通道的时延要求是比较高的，因此PCB布线要求也比较严格，差分对需阻抗匹配（100Ω±10%）和等长控制（长度差<

AI绘画工具背后的视觉技术：Stable Diffusion解析

AI绘画工具背后的视觉技术：Stable Diffusion解析 * 一、前言 * 1.1 AI 绘画的兴起 * 1.2 Stable Diffusion 的地位与影响 * 二、Stable Diffusion 基础概念 * 2.1 定义与基本原理 * 2.2 发展历程 * 三、技术核心解析 * 3.1 扩散模型基础 * 3.1.1 正向扩散过程 * 3.1.2 逆向扩散过程 * 3.2 潜在空间（Latent Space） * 3.2.1 潜在空间的概念 * 3.2.2 在

openclaw使用llama.cpp 本地大模型部署教程

一、环境准备

1. 硬件要求

2. 安装编译工具（WSL Ubuntu）

二、下载和编译 llama.cpp

1. 克隆源码

2. 编译

三、下载模型

1. 创建模型目录

2. 下载 GGUF 模型（使用国内镜像加速）

四、运行模型

方式一：命令行交互模式

方式二：启动 API 服务

五、API 调用方法

API 信息

端点列表

调用示例

curl

Python（OpenAI SDK）

Node.js

六、常用参数说明

服务端参数（llama-server）

API 请求参数

七、常见问题

Q1: 报错 “CUDA out of memory”

Q2: 中文乱码

Q3: 如何后台运行服务？

Q4: 如何设置 API Key 认证？

Q5: 从其他设备访问

八、推荐模型

九、文件结构

十、快速启动脚本

Read more

机器人 - 关于MIT电机模式控制

74个低空无人机AI算法详解，总体精度达90%，公安执法、消防应急、水利、林业、能源电力、城建、市政、城管、工程、农业、生态

一文读懂“JESD204B”之链路建立与xilinx IP仿真

AI绘画工具背后的视觉技术：Stable Diffusion解析