openclaw使用llama.cpp 本地大模型部署教程

优质文章学习记录

07 Apr 2026 — 4 min read

openclaw使用llama.cpp 本地大模型部署教程

本教程基于实际操作整理，适用于 Windows WSL2 环境

全程使用 openclaw 帮我搭建大模型

一、环境准备

1. 硬件要求

显卡	推荐模型	显存占用
GTX 1050 Ti (4GB)	Qwen2.5-3B Q4	~2.5GB
RTX 4060 (8GB)	Qwen2.5-7B Q4	~5GB
RTX 4090 (24GB)	Qwen2.5-32B Q4	~20GB

2. 安装编译工具（WSL Ubuntu）

sudoapt update sudoaptinstall -y cmake build-essential

二、下载和编译 llama.cpp

1. 克隆源码

mkdir -p ~/llama.cpp cd ~/llama.cpp git clone --depth 1 https://github.com/ggerganov/llama.cpp.git src

2. 编译

cd ~/llama.cpp/src mkdir build &&cd build cmake .. -DCMAKE_BUILD_TYPE=Release make -j$(nproc) llama-cli llama-server

编译完成后，可执行文件在 ~/llama.cpp/src/build/bin/ 目录下。

三、下载模型

1. 创建模型目录

mkdir -p ~/llama.cpp/models

2. 下载 GGUF 模型（使用国内镜像加速）

Qwen2.5-3B（适合 4GB 显存）：

curl -L -o ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \"https://hf-mirror.com/Qwen/Qwen2.5-3B-Instruct-GGUF/resolve/main/qwen2.5-3b-instruct-q4_k_m.gguf"

Qwen2.5-7B（适合 8GB 显存）：

curl -L -o ~/llama.cpp/models/qwen2.5-7b-instruct-q4_k_m.gguf \"https://hf-mirror.com/Qwen/Qwen2.5-7B-Instruct-GGUF/resolve/main/qwen2.5-7b-instruct-q4_k_m.gguf"

四、运行模型

方式一：命令行交互模式

cd ~/llama.cpp/src/build/bin ./llama-cli -m ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \ -c 4096\ --no-display-prompt

参数说明：

-m 模型路径
-c 上下文长度（默认 512，建议 4096）
-ngl GPU 层数（纯 CPU 可不加）

方式二：启动 API 服务

cd ~/llama.cpp/src/build/bin ./llama-server \ -m ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \ --host 0.0.0.0 \ --port 8080\ -c 4096

服务启动后访问：http://localhost:8080

五、API 调用方法

API 信息

项目	值
地址	`http://localhost:8080`
API Key	不需要（或随意填写）
兼容格式	OpenAI API

端点列表

端点	说明
`POST /v1/chat/completions`	聊天补全
`POST /v1/completions`	文本补全
`GET /health`	健康检查
`GET /`	Web 聊天界面

调用示例

curl

curl http://localhost:8080/v1/chat/completions \ -H "Content-Type: application/json"\ -d '{ "model": "qwen2.5-3b", "messages": [ {"role": "system", "content": "你是一个有帮助的助手。"}, {"role": "user", "content": "你好，介绍一下你自己"} ], "temperature": 0.7, "max_tokens": 512 }'

Python（OpenAI SDK）

from openai import OpenAI client = OpenAI( base_url="http://localhost:8080/v1", api_key="not-needed") response = client.chat.completions.create( model="qwen2.5-3b", messages=[{"role":"system","content":"你是一个有帮助的助手。"},{"role":"user","content":"你好"}], temperature=0.7, max_tokens=512)print(response.choices[0].message.content)

Node.js

const response =awaitfetch('http://localhost:8080/v1/chat/completions',{method:'POST',headers:{'Content-Type':'application/json'},body:JSON.stringify({model:'qwen2.5-3b',messages:[{role:'user',content:'你好'}]})});const data =await response.json(); console.log(data.choices[0].message.content);

六、常用参数说明

服务端参数（llama-server）

参数	说明	示例
`-m`	模型路径	`-m model.gguf`
`--host`	监听地址	`--host 0.0.0.0`
`--port`	端口	`--port 8080`
`-c`	上下文长度	`-c 4096`
`-ngl`	GPU 层数	`-ngl 99`（全部放 GPU）
`-np`	并行请求数	`-np 4`
`--api-key`	设置 API Key	`--api-key your-key`

API 请求参数

参数	说明	默认值
`temperature`	随机性（0-2）	0.7
`max_tokens`	最大生成长度	模型上限
`top_p`	核采样	1.0
`stream`	流式输出	false
`stop`	停止词	[]

七、常见问题

Q1: 报错 “CUDA out of memory”

减少 -ngl 数值，让部分层用 CPU 计算：

./llama-server -m model.gguf -ngl 20# 只放 20 层到 GPU

Q2: 中文乱码

PowerShell 执行：

chcp 65001

Q3: 如何后台运行服务？

nohup ./llama-server -m model.gguf --host 0.0.0.0 --port 8080> server.log 2>&1&

Q4: 如何设置 API Key 认证？

./llama-server -m model.gguf --api-key "your-secret-key"

调用时需要带上：

curl -H "Authorization: Bearer your-secret-key"...

Q5: 从其他设备访问

查看 WSL IP：hostname -I
使用该 IP 访问，如 http://172.x.x.x:8080

八、推荐模型

模型	大小	适合场景
Qwen2.5-3B-Instruct Q4	~2GB	轻量对话、低配设备
Qwen2.5-7B-Instruct Q4	~4.5GB	通用对话、代码
Qwen2.5-14B-Instruct Q4	~9GB	复杂推理
DeepSeek-R1-Distill-Qwen-7B Q4	~4.5GB	数学、逻辑推理
Mistral-7B-v0.3 Q5	~5GB	英文、代码

下载地址： https://hf-mirror.com（国内镜像）

九、文件结构

~/llama.cpp/ ├── src/ # llama.cpp 源码 │ └── build/ │ └── bin/ │ ├── llama-cli # 命令行工具 │ └── llama-server # API 服务 └── models/ # 模型存放目录 └── qwen2.5-3b-instruct-q4_k_m.gguf

十、快速启动脚本

创建 start-server.sh：

#!/bin/bashcd ~/llama.cpp/src/build/bin ./llama-server \ -m ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \ --host 0.0.0.0 \ --port 8080\ -c 4096\ -np 4

赋予执行权限：

chmod +x start-server.sh ./start-server.sh

教程整理于 2026-02-03
基于 llama.cpp b7917 + Qwen2.5-3B-Instruct

AI 原生架构：鸿蒙App的下一代形态

子玥酱（掘金 / 知乎 / ZEEKLOG / 简书同名）大家好，我是子玥酱，一名长期深耕在一线的前端程序媛 👩‍💻。曾就职于多家知名互联网大厂，目前在某国企负责前端软件研发相关工作，主要聚焦于业务型系统的工程化建设与长期维护。我持续输出和沉淀前端领域的实战经验，日常关注并分享的技术方向包括前端工程化、小程序、React / RN、Flutter、跨端方案，在复杂业务落地、组件抽象、性能优化以及多端协作方面积累了大量真实项目经验。技术方向：前端 / 跨端 / 小程序 / 移动端工程化内容平台：掘金、知乎、ZEEKLOG、简书创作特点：实战导向、源码拆解、少空谈多落地文章状态：长期稳定更新，大量原创输出我的内容主要围绕前端技术实战、真实业务踩坑总结、框架与方案选型思考、行业趋势解读展开。文章不会停留在“API 怎么用”，而是更关注为什么这么设计、在什么场景下容易踩坑、

我用百度智能云跑OpenClaw，AI帮我24小时盯盘、找黑马

OpenClaw（也就是Clawdbot）爆火，成为2026年现象级AI应用，被业界认为是Agent今后的主要发展方向。简单来说，它是一个能够自己操作电脑干活的智能体，你只需要通过聊天工具给他发指令，它就会自动规划和执行任务。一位博主给了OpenClaw 50美元，让它自生自灭，结果AI通过高频捕捉套利机会，在交易当中获利，仅48小时之内将50美元滚到了2980美元。这个案例给了我启发：何不让OpenClaw来帮我赚钱，给他操盘思路，复现一个AI炒股大神，并且让大多数人都能轻松抄作业。于是我开始尝试，首先要搞定OpenClaw的部署，我推荐使用云主机的部署方式，国内各家科技公司都提供了OpenClaw接入服务，下面以百度智能云为例，简单说下部署的过程。 01 百度智能云：轻松部署，极简交互打开百度智能云官网，现在每天开放 500 个名额，可以一分钱开通，快抢福利吧： https://cloud.baidu.com/product/BCC/moltbot.html 确认订单、完成支付后，就可以准备安装和配置了。

人工智能：大语言模型（LLM）原理与应用实战

人工智能：大语言模型（LLM）原理与应用实战 1.1 本章学习目标与重点 💡 学习目标：掌握大语言模型的核心原理、训练流程与微调方法，学会基于开源大语言模型完成定制化对话与文本生成任务。 💡 学习重点：理解大语言模型的Transformer decoder-only架构，掌握指令微调与RLHF技术，能够使用LoRA高效微调开源LLM。 1.2 大语言模型的核心概念与发展历程 1.2.1 什么是大语言模型 💡 大语言模型（Large Language Model, LLM）是参数量达到十亿级甚至万亿级的Transformer-based模型。它通过在海量文本数据上进行预训练，学习语言的语法、语义、常识和推理能力。 LLM的核心能力包括文本生成、理解、翻译、摘要、问答等。它可以处理复杂的自然语言任务，无需针对每个任务单独设计模型结构。 LLM与传统NLP模型的核心区别： * 参数量级：传统模型参数量通常在千万级，LLM参数量可达十亿到万亿级。 * 训练数据：传统模型依赖标注数据，LLM使用海量无标注文本进行预训练。 * 能力边界：传统模型只能处理单一任务，LL

酒馆SillyTavern使用第三方API接口，打造专属AI聊天

一、酒馆SillyTavern简介 SillyTavern（简称 ST，中文俗称酒馆）是一个本地安装的用户界面，可让你与文本生成 LLM、图像生成引擎和 TTS 语音模型进行交互。我们的目标是让用户尽可能地发挥实用性并控制他们的 LLM 提示，让陡峭的学习曲线成为乐趣的一部分。二、安装为何要使用酒馆？ SillyTavern 相比 ChatGPT/Claude/Gemini 等 LLM 服务的网页或 App 聊天界面，能够提供更高的灵活性。 SillyTavern 是一款可实现以下用途的应用程序：它是一个处理与 AI 语言模型通信的用户界面。它可以让你创建新的角色卡（提示），并轻松地在它们之间切换。它允许你导入其他人创建的角色。它将保留你与角色的聊天记录，允许你随时恢复、开始新聊天、查看旧聊天等。在后台，它会为你准备 AI 提示。具体来说，它会发送系统提示（给

openclaw使用llama.cpp 本地大模型部署教程

一、环境准备

1. 硬件要求

2. 安装编译工具（WSL Ubuntu）

二、下载和编译 llama.cpp

1. 克隆源码

2. 编译

三、下载模型

1. 创建模型目录

2. 下载 GGUF 模型（使用国内镜像加速）

四、运行模型

方式一：命令行交互模式

方式二：启动 API 服务

五、API 调用方法

API 信息

端点列表

调用示例

curl

Python（OpenAI SDK）

Node.js

六、常用参数说明

服务端参数（llama-server）

API 请求参数

七、常见问题

Q1: 报错 “CUDA out of memory”

Q2: 中文乱码

Q3: 如何后台运行服务？

Q4: 如何设置 API Key 认证？

Q5: 从其他设备访问

八、推荐模型

九、文件结构

十、快速启动脚本

Read more

AI 原生架构：鸿蒙App的下一代形态

我用百度智能云跑OpenClaw，AI帮我24小时盯盘、找黑马

人工智能：大语言模型（LLM）原理与应用实战

酒馆SillyTavern使用第三方API接口，打造专属AI聊天