openclaw使用llama.cpp 本地大模型部署教程

优质文章学习记录

10 Apr 2026 — 4 min read

openclaw使用llama.cpp 本地大模型部署教程

本教程基于实际操作整理，适用于 Windows WSL2 环境

全程使用 openclaw 帮我搭建大模型

一、环境准备

1. 硬件要求

显卡	推荐模型	显存占用
GTX 1050 Ti (4GB)	Qwen2.5-3B Q4	~2.5GB
RTX 4060 (8GB)	Qwen2.5-7B Q4	~5GB
RTX 4090 (24GB)	Qwen2.5-32B Q4	~20GB

2. 安装编译工具（WSL Ubuntu）

sudoapt update sudoaptinstall -y cmake build-essential

二、下载和编译 llama.cpp

1. 克隆源码

mkdir -p ~/llama.cpp cd ~/llama.cpp git clone --depth 1 https://github.com/ggerganov/llama.cpp.git src

2. 编译

cd ~/llama.cpp/src mkdir build &&cd build cmake .. -DCMAKE_BUILD_TYPE=Release make -j$(nproc) llama-cli llama-server

编译完成后，可执行文件在 ~/llama.cpp/src/build/bin/ 目录下。

三、下载模型

1. 创建模型目录

mkdir -p ~/llama.cpp/models

2. 下载 GGUF 模型（使用国内镜像加速）

Qwen2.5-3B（适合 4GB 显存）：

curl -L -o ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \"https://hf-mirror.com/Qwen/Qwen2.5-3B-Instruct-GGUF/resolve/main/qwen2.5-3b-instruct-q4_k_m.gguf"

Qwen2.5-7B（适合 8GB 显存）：

curl -L -o ~/llama.cpp/models/qwen2.5-7b-instruct-q4_k_m.gguf \"https://hf-mirror.com/Qwen/Qwen2.5-7B-Instruct-GGUF/resolve/main/qwen2.5-7b-instruct-q4_k_m.gguf"

四、运行模型

方式一：命令行交互模式

cd ~/llama.cpp/src/build/bin ./llama-cli -m ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \ -c 4096\ --no-display-prompt

参数说明：

-m 模型路径
-c 上下文长度（默认 512，建议 4096）
-ngl GPU 层数（纯 CPU 可不加）

方式二：启动 API 服务

cd ~/llama.cpp/src/build/bin ./llama-server \ -m ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \ --host 0.0.0.0 \ --port 8080\ -c 4096

服务启动后访问：http://localhost:8080

五、API 调用方法

API 信息

项目	值
地址	`http://localhost:8080`
API Key	不需要（或随意填写）
兼容格式	OpenAI API

端点列表

端点	说明
`POST /v1/chat/completions`	聊天补全
`POST /v1/completions`	文本补全
`GET /health`	健康检查
`GET /`	Web 聊天界面

调用示例

curl

curl http://localhost:8080/v1/chat/completions \ -H "Content-Type: application/json"\ -d '{ "model": "qwen2.5-3b", "messages": [ {"role": "system", "content": "你是一个有帮助的助手。"}, {"role": "user", "content": "你好，介绍一下你自己"} ], "temperature": 0.7, "max_tokens": 512 }'

Python（OpenAI SDK）

from openai import OpenAI client = OpenAI( base_url="http://localhost:8080/v1", api_key="not-needed") response = client.chat.completions.create( model="qwen2.5-3b", messages=[{"role":"system","content":"你是一个有帮助的助手。"},{"role":"user","content":"你好"}], temperature=0.7, max_tokens=512)print(response.choices[0].message.content)

Node.js

const response =awaitfetch('http://localhost:8080/v1/chat/completions',{method:'POST',headers:{'Content-Type':'application/json'},body:JSON.stringify({model:'qwen2.5-3b',messages:[{role:'user',content:'你好'}]})});const data =await response.json(); console.log(data.choices[0].message.content);

六、常用参数说明

服务端参数（llama-server）

参数	说明	示例
`-m`	模型路径	`-m model.gguf`
`--host`	监听地址	`--host 0.0.0.0`
`--port`	端口	`--port 8080`
`-c`	上下文长度	`-c 4096`
`-ngl`	GPU 层数	`-ngl 99`（全部放 GPU）
`-np`	并行请求数	`-np 4`
`--api-key`	设置 API Key	`--api-key your-key`

API 请求参数

参数	说明	默认值
`temperature`	随机性（0-2）	0.7
`max_tokens`	最大生成长度	模型上限
`top_p`	核采样	1.0
`stream`	流式输出	false
`stop`	停止词	[]

七、常见问题

Q1: 报错 “CUDA out of memory”

减少 -ngl 数值，让部分层用 CPU 计算：

./llama-server -m model.gguf -ngl 20# 只放 20 层到 GPU

Q2: 中文乱码

PowerShell 执行：

chcp 65001

Q3: 如何后台运行服务？

nohup ./llama-server -m model.gguf --host 0.0.0.0 --port 8080> server.log 2>&1&

Q4: 如何设置 API Key 认证？

./llama-server -m model.gguf --api-key "your-secret-key"

调用时需要带上：

curl -H "Authorization: Bearer your-secret-key"...

Q5: 从其他设备访问

查看 WSL IP：hostname -I
使用该 IP 访问，如 http://172.x.x.x:8080

八、推荐模型

模型	大小	适合场景
Qwen2.5-3B-Instruct Q4	~2GB	轻量对话、低配设备
Qwen2.5-7B-Instruct Q4	~4.5GB	通用对话、代码
Qwen2.5-14B-Instruct Q4	~9GB	复杂推理
DeepSeek-R1-Distill-Qwen-7B Q4	~4.5GB	数学、逻辑推理
Mistral-7B-v0.3 Q5	~5GB	英文、代码

下载地址： https://hf-mirror.com（国内镜像）

九、文件结构

~/llama.cpp/ ├── src/ # llama.cpp 源码 │ └── build/ │ └── bin/ │ ├── llama-cli # 命令行工具 │ └── llama-server # API 服务 └── models/ # 模型存放目录 └── qwen2.5-3b-instruct-q4_k_m.gguf

十、快速启动脚本

创建 start-server.sh：

#!/bin/bashcd ~/llama.cpp/src/build/bin ./llama-server \ -m ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \ --host 0.0.0.0 \ --port 8080\ -c 4096\ -np 4

赋予执行权限：

chmod +x start-server.sh ./start-server.sh

教程整理于 2026-02-03
基于 llama.cpp b7917 + Qwen2.5-3B-Instruct

llama.cpp 部署 Qwen3-14B-Claude-4.5-Opus-High-Reasoning-Distill-GGUF

模型：Qwen3-14B-Claude-4.5-Opus-High-Reasoning-Distill-GGUF "model": "Qwen3-14B" 显存：21~25GB max-model-len ：40960 并发: 4 部署服务器：DGX-Spark-GB10 120GB 生成速率：13 tokens/s （慢的原因分析可见https://blog.ZEEKLOG.net/weixin_69334636/article/details/158497823?spm=1001.2014.3001.5501）部署GGUF格式的模型有3种方法对比项Ollamallama.cppLM Studio/OpenWebUI上手难度⭐ 最简单⭐⭐⭐ 需编译⭐ 图形界面推理性能🔶 中等🥇 最强🔶 中等GPU控制有限完全可控有限API服务开箱即用需手动启动内置适合场景快速部署/生产性能调优/研究本地体验

【大模型知识】Chroma + Ollama + Llama 3.1 搭建本地知识库

搭建本地知识库 * ✅ 一、整体架构设计（RAG + 向量检索 + 本地 LLM） * 🧰 二、推荐技术栈（2026 年最佳实践） * 🛠️ 三、具体搭建步骤（以 Chroma + Ollama + Llama 3.1 为例） * 步骤 1：安装基础环境 * 步骤 2：安装 Python 依赖 * 步骤 3：准备知识文档 * 步骤 4：构建向量知识库（Python 脚本） * 步骤 5：启动问答服务（RAG 推理） * 🔒 四、安全与性能优化建议 * 1. **隐私保护** * 2. **性能调优** * 3. **中文增强** * 🧪 五、

探索云开发Copilot，AI如何重塑开发流程？

文章目录 * 1 AI与低代码 * 2 Copilot功能 * 3 案例解析 * 4 Copilot不足 * 5 改进建议刚接触 Copilot 时， Copilot 的 AI 低代码生成功能让我眼前一亮，使得我开发变得更简洁高效。以前，我总是依赖手写代码，从搭建环境到实现功能，每一步都非常耗时。虽然这个过程有助于技术成长，但在面对复杂需求时，常常觉得费时费力。 1 AI与低代码低代码平台通过拖拽组件和模块化开发，极大地降低了技术门槛，让没有开发背景的人也能轻松实现自己的创意。这种方式不仅快速，而且灵活，适合那些想要快速搭建应用的用户。再加上人工智能在自然语言理解和代码生成方面的突破，开发效率也得到了极大的提升。云开发 Copilot 正好是这种结合的典型代表。它不仅利用低代码技术简化开发过程，还融合了AI智能生成和优化的功能，帮助开发者更高效地从需求到最终实现。通过这种方式，不管是技术新手还是有一定开发经验的人，都能更轻松地完成项目，云开发 Copilot 体验地址：https://tcb.

技术速递｜GitHub Copilot SDK 与云原生的完美融合

作者：卢建晖 - 微软高级云技术布道师排版：Alan Wang 引言在当今快速演进的 AI 技术格局中，我们已经见证了从简单聊天机器人到复杂智能体系统的转变。作为一名开发者和技术布道者，我观察到一个正在形成的趋势——重点不在于让 AI 无所不能，而在于让每一个 AI Agent 在特定领域做到极致、做到专业。今天，我想分享一套令人兴奋的技术组合：GitHub Copilot SDK（将生产级智能体引擎嵌入任意应用的开发工具包） + Agent-to-Agent（A2A）Protocol（实现智能体标准化协作的通信规范） + 云原生部署（支撑生产系统的基础设施）。这三者结合在一起，使我们能够构建真正具备协作能力的多智能体系统。从 AI 助手到智能体引擎：重新定义能力边界传统的 AI 助手往往追求“全能”——试图回答你抛给它的任何问题。但在真实的生产环境中，这种方式会遇到严重挑战： * 质量不一致：一个模型同时写代码、做数据分析、

openclaw使用llama.cpp 本地大模型部署教程

一、环境准备

1. 硬件要求

2. 安装编译工具（WSL Ubuntu）

二、下载和编译 llama.cpp

1. 克隆源码

2. 编译

三、下载模型

1. 创建模型目录

2. 下载 GGUF 模型（使用国内镜像加速）

四、运行模型

方式一：命令行交互模式

方式二：启动 API 服务

五、API 调用方法

API 信息

端点列表

调用示例

curl

Python（OpenAI SDK）

Node.js

六、常用参数说明

服务端参数（llama-server）

API 请求参数

七、常见问题

Q1: 报错 “CUDA out of memory”

Q2: 中文乱码

Q3: 如何后台运行服务？

Q4: 如何设置 API Key 认证？

Q5: 从其他设备访问

八、推荐模型

九、文件结构

十、快速启动脚本

Read more

llama.cpp 部署 Qwen3-14B-Claude-4.5-Opus-High-Reasoning-Distill-GGUF

【大模型知识】Chroma + Ollama + Llama 3.1 搭建本地知识库

探索云开发Copilot，AI如何重塑开发流程？

技术速递｜GitHub Copilot SDK 与云原生的完美融合