openclaw使用llama.cpp 本地大模型部署教程

优质文章学习记录

05 Apr 2026 — 4 min read

openclaw使用llama.cpp 本地大模型部署教程

本教程基于实际操作整理，适用于 Windows WSL2 环境

全程使用 openclaw 帮我搭建大模型

一、环境准备

1. 硬件要求

显卡	推荐模型	显存占用
GTX 1050 Ti (4GB)	Qwen2.5-3B Q4	~2.5GB
RTX 4060 (8GB)	Qwen2.5-7B Q4	~5GB
RTX 4090 (24GB)	Qwen2.5-32B Q4	~20GB

2. 安装编译工具（WSL Ubuntu）

sudoapt update sudoaptinstall -y cmake build-essential

二、下载和编译 llama.cpp

1. 克隆源码

mkdir -p ~/llama.cpp cd ~/llama.cpp git clone --depth 1 https://github.com/ggerganov/llama.cpp.git src

2. 编译

cd ~/llama.cpp/src mkdir build &&cd build cmake .. -DCMAKE_BUILD_TYPE=Release make -j$(nproc) llama-cli llama-server

编译完成后，可执行文件在 ~/llama.cpp/src/build/bin/ 目录下。

三、下载模型

1. 创建模型目录

mkdir -p ~/llama.cpp/models

2. 下载 GGUF 模型（使用国内镜像加速）

Qwen2.5-3B（适合 4GB 显存）：

curl -L -o ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \"https://hf-mirror.com/Qwen/Qwen2.5-3B-Instruct-GGUF/resolve/main/qwen2.5-3b-instruct-q4_k_m.gguf"

Qwen2.5-7B（适合 8GB 显存）：

curl -L -o ~/llama.cpp/models/qwen2.5-7b-instruct-q4_k_m.gguf \"https://hf-mirror.com/Qwen/Qwen2.5-7B-Instruct-GGUF/resolve/main/qwen2.5-7b-instruct-q4_k_m.gguf"

四、运行模型

方式一：命令行交互模式

cd ~/llama.cpp/src/build/bin ./llama-cli -m ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \ -c 4096\ --no-display-prompt

参数说明：

-m 模型路径
-c 上下文长度（默认 512，建议 4096）
-ngl GPU 层数（纯 CPU 可不加）

方式二：启动 API 服务

cd ~/llama.cpp/src/build/bin ./llama-server \ -m ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \ --host 0.0.0.0 \ --port 8080\ -c 4096

服务启动后访问：http://localhost:8080

五、API 调用方法

API 信息

项目	值
地址	`http://localhost:8080`
API Key	不需要（或随意填写）
兼容格式	OpenAI API

端点列表

端点	说明
`POST /v1/chat/completions`	聊天补全
`POST /v1/completions`	文本补全
`GET /health`	健康检查
`GET /`	Web 聊天界面

调用示例

curl

curl http://localhost:8080/v1/chat/completions \ -H "Content-Type: application/json"\ -d '{ "model": "qwen2.5-3b", "messages": [ {"role": "system", "content": "你是一个有帮助的助手。"}, {"role": "user", "content": "你好，介绍一下你自己"} ], "temperature": 0.7, "max_tokens": 512 }'

Python（OpenAI SDK）

from openai import OpenAI client = OpenAI( base_url="http://localhost:8080/v1", api_key="not-needed") response = client.chat.completions.create( model="qwen2.5-3b", messages=[{"role":"system","content":"你是一个有帮助的助手。"},{"role":"user","content":"你好"}], temperature=0.7, max_tokens=512)print(response.choices[0].message.content)

Node.js

const response =awaitfetch('http://localhost:8080/v1/chat/completions',{method:'POST',headers:{'Content-Type':'application/json'},body:JSON.stringify({model:'qwen2.5-3b',messages:[{role:'user',content:'你好'}]})});const data =await response.json(); console.log(data.choices[0].message.content);

六、常用参数说明

服务端参数（llama-server）

参数	说明	示例
`-m`	模型路径	`-m model.gguf`
`--host`	监听地址	`--host 0.0.0.0`
`--port`	端口	`--port 8080`
`-c`	上下文长度	`-c 4096`
`-ngl`	GPU 层数	`-ngl 99`（全部放 GPU）
`-np`	并行请求数	`-np 4`
`--api-key`	设置 API Key	`--api-key your-key`

API 请求参数

参数	说明	默认值
`temperature`	随机性（0-2）	0.7
`max_tokens`	最大生成长度	模型上限
`top_p`	核采样	1.0
`stream`	流式输出	false
`stop`	停止词	[]

七、常见问题

Q1: 报错 “CUDA out of memory”

减少 -ngl 数值，让部分层用 CPU 计算：

./llama-server -m model.gguf -ngl 20# 只放 20 层到 GPU

Q2: 中文乱码

PowerShell 执行：

chcp 65001

Q3: 如何后台运行服务？

nohup ./llama-server -m model.gguf --host 0.0.0.0 --port 8080> server.log 2>&1&

Q4: 如何设置 API Key 认证？

./llama-server -m model.gguf --api-key "your-secret-key"

调用时需要带上：

curl -H "Authorization: Bearer your-secret-key"...

Q5: 从其他设备访问

查看 WSL IP：hostname -I
使用该 IP 访问，如 http://172.x.x.x:8080

八、推荐模型

模型	大小	适合场景
Qwen2.5-3B-Instruct Q4	~2GB	轻量对话、低配设备
Qwen2.5-7B-Instruct Q4	~4.5GB	通用对话、代码
Qwen2.5-14B-Instruct Q4	~9GB	复杂推理
DeepSeek-R1-Distill-Qwen-7B Q4	~4.5GB	数学、逻辑推理
Mistral-7B-v0.3 Q5	~5GB	英文、代码

下载地址： https://hf-mirror.com（国内镜像）

九、文件结构

~/llama.cpp/ ├── src/ # llama.cpp 源码 │ └── build/ │ └── bin/ │ ├── llama-cli # 命令行工具 │ └── llama-server # API 服务 └── models/ # 模型存放目录 └── qwen2.5-3b-instruct-q4_k_m.gguf

十、快速启动脚本

创建 start-server.sh：

#!/bin/bashcd ~/llama.cpp/src/build/bin ./llama-server \ -m ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \ --host 0.0.0.0 \ --port 8080\ -c 4096\ -np 4

赋予执行权限：

chmod +x start-server.sh ./start-server.sh

教程整理于 2026-02-03
基于 llama.cpp b7917 + Qwen2.5-3B-Instruct

ReAct Agent 与 Agent 编排：从单 Agent 闭环到多 Agent 协作（纯享版）

ReAct Agent 与 Agent 编排：从单 Agent 闭环到多 Agent 协作本篇文章，大概会花费你10分钟时间，带你对Agent进行更加深入的了解。目录： * ReAct Agent 与 Agent 编排：从单 Agent 闭环到多 Agent 协作 * 一、这 10 分钟到底会讲什么 * 二、我将会分8节来讲 * 第 1 节：为什么要讲 ReAct 和 Agent 编排 * 时间：1 分钟 * 第 2 节：先讲清 Agent 的最小运行时骨架 * 时间：1 分钟

ollama v0.18.3 发布：VS Code 原生集成 + Agent 模式，本地 AI 开发体验全面革新

一、版本总览：Ollama v0.18.3，2026年3月26日正式上线 2026年3月26日，开源本地大模型管理工具Ollama正式发布v0.18.3版本，这是Ollama在AI开发工具集成领域的一次里程碑式升级。本次更新核心聚焦VS Code深度原生集成与Agent模式能力开放两大核心功能，同时完成多项底层优化与Bug修复，进一步强化了本地大模型在开发场景中的实用性与稳定性。从版本更新数据来看，本次v0.18.3版本由8位贡献者共同参与，累计提交22次代码提交，涉及83个文件修改，覆盖从核心功能开发、文档更新到底层引擎优化的全流程，是一次功能与稳定性并重的全面升级。二、核心功能一：Ollama原生启动VS Code，本地模型无缝融入开发环境 2.1 功能核心：一行命令打通Ollama与VS Code Ollama v0.18.3最重磅的更新，是实现了Ollama直接启动VS Code的原生能力，开发者无需额外配置复杂的插件或中间件，仅需一行命令即可完成Ollama与VS Code的深度绑定，让本地大模型成为VS Code开发环境的原生组成部分。启动命令极为简洁，

AI 1 分钟生成接口自动化脚本，接口测试从此不用手写代码（实战）

大家好，继续分享 AI + 测试实战。接口自动化是测试必学，但很多人卡在： * 不会写请求 * 不会加断言 * 不会处理 Headers、参数今天用AI + Python + Requests 实战，把需求说清楚，AI 直接给你可运行代码。一、你只需要给 AI 发一句话帮我写一段 Python + requests 接口自动化脚本，调用一个 GET 请求：https://httpbin.org/get 带请求头、带参数、做状态码断言、返回值断言，代码加详细注释，适合新手直接运行。 AI 立刻给你完整代码，我帮你整理好了：二、AI 生成的接口自动化代码（可直接运行） import requests # 接口地址

【GitHub项目推荐--Toonflow AI短剧工厂：一站式AI短剧创作平台】

简介 Toonflow AI短剧工厂是一个革命性的AI驱动短剧创作平台，由HBAI-Ltd团队开发。该项目致力于将小说文本智能转化为完整的短剧视频，实现从文字到影像的全流程自动化。通过集成先进的大语言模型、图像生成和视频合成技术，Toonflow让用户只需动动手指，就能将小说秒变剧集，创作效率提升10倍以上。核心价值： * 全流程AI化：从文本到角色，从分镜到视频，0门槛完成短剧创作 * 效率革命：创作效率提升10倍+，大幅缩短制作周期 * 智能转换：自动将小说转化为结构化剧本和视觉内容 * 开源免费：基于AGPL-3.0许可证，完全开源且免费使用技术定位：Toonflow填补了文学创作与影视制作之间的技术鸿沟。通过标准化的AI工作流，它为内容创作者提供了从创意到成品的完整解决方案，降低了视频制作的专业门槛。主要功能 1. 智能角色生成系统自动分析原始小说文本，智能识别并生成角色设定。生成内容包括角色的外貌特征、性格特点、身份背景等详细信息。为后续剧本创作和画面设计提供可靠的角色基础。支持批量角色生成，快速构建完整的角色库。 2. 自动化剧本生成基

openclaw使用llama.cpp 本地大模型部署教程

一、环境准备

1. 硬件要求

2. 安装编译工具（WSL Ubuntu）

二、下载和编译 llama.cpp

1. 克隆源码

2. 编译

三、下载模型

1. 创建模型目录

2. 下载 GGUF 模型（使用国内镜像加速）

四、运行模型

方式一：命令行交互模式

方式二：启动 API 服务

五、API 调用方法

API 信息

端点列表

调用示例

curl

Python（OpenAI SDK）

Node.js

六、常用参数说明

服务端参数（llama-server）

API 请求参数

七、常见问题

Q1: 报错 “CUDA out of memory”

Q2: 中文乱码

Q3: 如何后台运行服务？

Q4: 如何设置 API Key 认证？

Q5: 从其他设备访问

八、推荐模型

九、文件结构

十、快速启动脚本

Read more

ReAct Agent 与 Agent 编排：从单 Agent 闭环到多 Agent 协作（纯享版）

ollama v0.18.3 发布：VS Code 原生集成 + Agent 模式，本地 AI 开发体验全面革新

AI 1 分钟生成接口自动化脚本，接口测试从此不用手写代码（实战）

【GitHub项目推荐--Toonflow AI短剧工厂：一站式AI短剧创作平台】