openclaw使用llama.cpp 本地大模型部署教程

Ne0inhk

22 Mar 2026 — 4 min read

openclaw使用llama.cpp 本地大模型部署教程

本教程基于实际操作整理，适用于 Windows WSL2 环境

全程使用 openclaw 帮我搭建大模型

一、环境准备

1. 硬件要求

显卡	推荐模型	显存占用
GTX 1050 Ti (4GB)	Qwen2.5-3B Q4	~2.5GB
RTX 4060 (8GB)	Qwen2.5-7B Q4	~5GB
RTX 4090 (24GB)	Qwen2.5-32B Q4	~20GB

2. 安装编译工具（WSL Ubuntu）

sudoapt update sudoaptinstall -y cmake build-essential

二、下载和编译 llama.cpp

1. 克隆源码

mkdir -p ~/llama.cpp cd ~/llama.cpp git clone --depth 1 https://github.com/ggerganov/llama.cpp.git src

2. 编译

cd ~/llama.cpp/src mkdir build &&cd build cmake .. -DCMAKE_BUILD_TYPE=Release make -j$(nproc) llama-cli llama-server

编译完成后，可执行文件在 ~/llama.cpp/src/build/bin/ 目录下。

三、下载模型

1. 创建模型目录

mkdir -p ~/llama.cpp/models

2. 下载 GGUF 模型（使用国内镜像加速）

Qwen2.5-3B（适合 4GB 显存）：

curl -L -o ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \"https://hf-mirror.com/Qwen/Qwen2.5-3B-Instruct-GGUF/resolve/main/qwen2.5-3b-instruct-q4_k_m.gguf"

Qwen2.5-7B（适合 8GB 显存）：

curl -L -o ~/llama.cpp/models/qwen2.5-7b-instruct-q4_k_m.gguf \"https://hf-mirror.com/Qwen/Qwen2.5-7B-Instruct-GGUF/resolve/main/qwen2.5-7b-instruct-q4_k_m.gguf"

四、运行模型

方式一：命令行交互模式

cd ~/llama.cpp/src/build/bin ./llama-cli -m ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \ -c 4096\ --no-display-prompt

参数说明：

-m 模型路径
-c 上下文长度（默认 512，建议 4096）
-ngl GPU 层数（纯 CPU 可不加）

方式二：启动 API 服务

cd ~/llama.cpp/src/build/bin ./llama-server \ -m ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \ --host 0.0.0.0 \ --port 8080\ -c 4096

服务启动后访问：http://localhost:8080

五、API 调用方法

API 信息

项目	值
地址	`http://localhost:8080`
API Key	不需要（或随意填写）
兼容格式	OpenAI API

端点列表

端点	说明
`POST /v1/chat/completions`	聊天补全
`POST /v1/completions`	文本补全
`GET /health`	健康检查
`GET /`	Web 聊天界面

调用示例

curl

curl http://localhost:8080/v1/chat/completions \ -H "Content-Type: application/json"\ -d '{ "model": "qwen2.5-3b", "messages": [ {"role": "system", "content": "你是一个有帮助的助手。"}, {"role": "user", "content": "你好，介绍一下你自己"} ], "temperature": 0.7, "max_tokens": 512 }'

Python（OpenAI SDK）

from openai import OpenAI client = OpenAI( base_url="http://localhost:8080/v1", api_key="not-needed") response = client.chat.completions.create( model="qwen2.5-3b", messages=[{"role":"system","content":"你是一个有帮助的助手。"},{"role":"user","content":"你好"}], temperature=0.7, max_tokens=512)print(response.choices[0].message.content)

Node.js

const response =awaitfetch('http://localhost:8080/v1/chat/completions',{method:'POST',headers:{'Content-Type':'application/json'},body:JSON.stringify({model:'qwen2.5-3b',messages:[{role:'user',content:'你好'}]})});const data =await response.json(); console.log(data.choices[0].message.content);

六、常用参数说明

服务端参数（llama-server）

参数	说明	示例
`-m`	模型路径	`-m model.gguf`
`--host`	监听地址	`--host 0.0.0.0`
`--port`	端口	`--port 8080`
`-c`	上下文长度	`-c 4096`
`-ngl`	GPU 层数	`-ngl 99`（全部放 GPU）
`-np`	并行请求数	`-np 4`
`--api-key`	设置 API Key	`--api-key your-key`

API 请求参数

参数	说明	默认值
`temperature`	随机性（0-2）	0.7
`max_tokens`	最大生成长度	模型上限
`top_p`	核采样	1.0
`stream`	流式输出	false
`stop`	停止词	[]

七、常见问题

Q1: 报错 “CUDA out of memory”

减少 -ngl 数值，让部分层用 CPU 计算：

./llama-server -m model.gguf -ngl 20# 只放 20 层到 GPU

Q2: 中文乱码

PowerShell 执行：

chcp 65001

Q3: 如何后台运行服务？

nohup ./llama-server -m model.gguf --host 0.0.0.0 --port 8080> server.log 2>&1&

Q4: 如何设置 API Key 认证？

./llama-server -m model.gguf --api-key "your-secret-key"

调用时需要带上：

curl -H "Authorization: Bearer your-secret-key"...

Q5: 从其他设备访问

查看 WSL IP：hostname -I
使用该 IP 访问，如 http://172.x.x.x:8080

八、推荐模型

模型	大小	适合场景
Qwen2.5-3B-Instruct Q4	~2GB	轻量对话、低配设备
Qwen2.5-7B-Instruct Q4	~4.5GB	通用对话、代码
Qwen2.5-14B-Instruct Q4	~9GB	复杂推理
DeepSeek-R1-Distill-Qwen-7B Q4	~4.5GB	数学、逻辑推理
Mistral-7B-v0.3 Q5	~5GB	英文、代码

下载地址： https://hf-mirror.com（国内镜像）

九、文件结构

~/llama.cpp/ ├── src/ # llama.cpp 源码 │ └── build/ │ └── bin/ │ ├── llama-cli # 命令行工具 │ └── llama-server # API 服务 └── models/ # 模型存放目录 └── qwen2.5-3b-instruct-q4_k_m.gguf

十、快速启动脚本

创建 start-server.sh：

#!/bin/bashcd ~/llama.cpp/src/build/bin ./llama-server \ -m ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \ --host 0.0.0.0 \ --port 8080\ -c 4096\ -np 4

赋予执行权限：

chmod +x start-server.sh ./start-server.sh

教程整理于 2026-02-03
基于 llama.cpp b7917 + Qwen2.5-3B-Instruct

EMQX开源版安装指南：Linux/Windows全攻略

EMQX开源版安装教程-linux/windows 因最近自己需要使用MQTT，需要搭建一个MQTT服务器，所以想到了很久以前用到的EMQX。但是当时的EMQX使用的是开源版的，在官网可以直接下载。而现在再次打开官网时发现怎么也找不大开源版本了，所以便在网上找了很久资源，网上的安装教程都是之前的那种官网截图，所以自己找到了资源以后重新梳理一遍现在的EMQX开源版安装教程。这里主要演示Linux版本，Windows版本可在这里下载到对应的安装包以后参考以前的资料进行安装及配置。系统:Ubuntu 22.04LTS 下载 1.首先使用浏览器打开链接： https://www.emqx.com/zh/downloads/broker/ 然后选择自己想要下载的版本，我这里以最新版5.8.6为例，点击5.8.6之后，按照自己的系统等信息选择对应的安装包例如我这里的系统是amd64的ubuntu22.04所以我选择了： * emqx-5.8.6-ubuntu22.04-amd64.deb 然后去到linux环境下：使用指令wget + 粘贴 wget https:

【Git】2025全图文详解安装教程

目录一、Git 的下载二、Git 的安装 2.1 使用许可声明 2.2 选择安装目录 2.3 选择安装组件 2.4 选择开始菜单文件夹 2.5 选择 Git 默认编辑器 2.6 决定初始化新项目(仓库)的主干名字 2.7 选择Git使用方式 2.8 选择SSH执行文件 2.9 选择HTTPS后端传输 2.10 配置行尾符号转换 2.11 配置终端模拟器以与 Git Bash 一起使用 2.12 选择默认的

永久开源免费用！科哥打造的OCR文字检测工具推荐

永久开源免费用！科哥打造的OCR文字检测工具推荐一款真正开箱即用、无需配置、不收一分钱的OCR文字检测WebUI工具——它不只是一段代码，而是一个完整可交付的生产力解决方案。本文将带你从零开始，快速上手这款由科哥独立开发、持续维护的cv_resnet18_ocr-detection镜像，并深入理解它在真实工作流中能为你省下多少时间。 1. 为什么你需要这个OCR工具？你是否也经历过这些时刻： * 扫描合同后想快速提取条款，却要反复截图、粘贴、校对； * 整理上百张发票照片，手动录入金额和日期，一坐就是半天； * 做竞品分析时，看到对手宣传页上的关键数据，却没法一键复制； * 学生党整理课堂PPT截图，逐张打字转文字，效率低到怀疑人生。市面上的OCR服务，要么按次收费、要么限制调用量、要么需要注册企业资质、要么部署复杂得像在搭火箭。而今天介绍的这款工具，没有试用期、没有水印、不联网上传、不依赖云服务、不强制绑定账号——它就安静地运行在你的服务器或本地机器上，点开浏览器就能用。更关键的是：它不是简单套壳，而是基于ResNet18主干网络+优化检测头的轻量级OC

终于有人把Openclaw团队协作版讲明白了！Clawith 开源方案从原理到部署全拆解

Clawith 深度拆解：如何用开源方案搭建多 Agent 团队协作平台快速摘要 Clawith 是一个基于 OpenClaw 生态的开源多智能体协作平台，它解决了 OpenClaw 在团队场景下「Agent 之间互不认识、缺乏组织架构、没有权限管控」的三大核心痛点。通过引入 Aware 自主感知系统、数字员工身份体系和广场知识沉淀机制，Clawith 让多个 AI Agent 具备了真正的团队协作能力。项目采用 Apache 2.0 开源协议，支持 Docker 一键部署，最低 2 核 CPU + 4GB 内存即可运行。往下看，有从底层原理到实际部署的完整拆解。一、从 OpenClaw 到 Clawith：为什么需要「团队版」

openclaw使用llama.cpp 本地大模型部署教程

一、环境准备

1. 硬件要求

2. 安装编译工具（WSL Ubuntu）

二、下载和编译 llama.cpp

1. 克隆源码

2. 编译

三、下载模型

1. 创建模型目录

2. 下载 GGUF 模型（使用国内镜像加速）

四、运行模型

方式一：命令行交互模式

方式二：启动 API 服务

五、API 调用方法

API 信息

端点列表

调用示例

curl

Python（OpenAI SDK）

Node.js

六、常用参数说明

服务端参数（llama-server）

API 请求参数

七、常见问题

Q1: 报错 “CUDA out of memory”

Q2: 中文乱码

Q3: 如何后台运行服务？

Q4: 如何设置 API Key 认证？

Q5: 从其他设备访问

八、推荐模型

九、文件结构

十、快速启动脚本

Read more

EMQX开源版安装指南：Linux/Windows全攻略

【Git】2025全图文详解安装教程

永久开源免费用！科哥打造的OCR文字检测工具推荐

终于有人把Openclaw团队协作版讲明白了！Clawith 开源方案从原理到部署全拆解