openclaw使用llama.cpp 本地大模型部署教程

Ne0inhk

21 Mar 2026 — 4 min read

openclaw使用llama.cpp 本地大模型部署教程

本教程基于实际操作整理，适用于 Windows WSL2 环境

全程使用 openclaw 帮我搭建大模型

一、环境准备

1. 硬件要求

显卡	推荐模型	显存占用
GTX 1050 Ti (4GB)	Qwen2.5-3B Q4	~2.5GB
RTX 4060 (8GB)	Qwen2.5-7B Q4	~5GB
RTX 4090 (24GB)	Qwen2.5-32B Q4	~20GB

2. 安装编译工具（WSL Ubuntu）

sudoapt update sudoaptinstall -y cmake build-essential

二、下载和编译 llama.cpp

1. 克隆源码

mkdir -p ~/llama.cpp cd ~/llama.cpp git clone --depth 1 https://github.com/ggerganov/llama.cpp.git src

2. 编译

cd ~/llama.cpp/src mkdir build &&cd build cmake .. -DCMAKE_BUILD_TYPE=Release make -j$(nproc) llama-cli llama-server

编译完成后，可执行文件在 ~/llama.cpp/src/build/bin/ 目录下。

三、下载模型

1. 创建模型目录

mkdir -p ~/llama.cpp/models

2. 下载 GGUF 模型（使用国内镜像加速）

Qwen2.5-3B（适合 4GB 显存）：

curl -L -o ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \"https://hf-mirror.com/Qwen/Qwen2.5-3B-Instruct-GGUF/resolve/main/qwen2.5-3b-instruct-q4_k_m.gguf"

Qwen2.5-7B（适合 8GB 显存）：

curl -L -o ~/llama.cpp/models/qwen2.5-7b-instruct-q4_k_m.gguf \"https://hf-mirror.com/Qwen/Qwen2.5-7B-Instruct-GGUF/resolve/main/qwen2.5-7b-instruct-q4_k_m.gguf"

四、运行模型

方式一：命令行交互模式

cd ~/llama.cpp/src/build/bin ./llama-cli -m ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \ -c 4096\ --no-display-prompt

参数说明：

-m 模型路径
-c 上下文长度（默认 512，建议 4096）
-ngl GPU 层数（纯 CPU 可不加）

方式二：启动 API 服务

cd ~/llama.cpp/src/build/bin ./llama-server \ -m ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \ --host 0.0.0.0 \ --port 8080\ -c 4096

服务启动后访问：http://localhost:8080

五、API 调用方法

API 信息

项目	值
地址	`http://localhost:8080`
API Key	不需要（或随意填写）
兼容格式	OpenAI API

端点列表

端点	说明
`POST /v1/chat/completions`	聊天补全
`POST /v1/completions`	文本补全
`GET /health`	健康检查
`GET /`	Web 聊天界面

调用示例

curl

curl http://localhost:8080/v1/chat/completions \ -H "Content-Type: application/json"\ -d '{ "model": "qwen2.5-3b", "messages": [ {"role": "system", "content": "你是一个有帮助的助手。"}, {"role": "user", "content": "你好，介绍一下你自己"} ], "temperature": 0.7, "max_tokens": 512 }'

Python（OpenAI SDK）

from openai import OpenAI client = OpenAI( base_url="http://localhost:8080/v1", api_key="not-needed") response = client.chat.completions.create( model="qwen2.5-3b", messages=[{"role":"system","content":"你是一个有帮助的助手。"},{"role":"user","content":"你好"}], temperature=0.7, max_tokens=512)print(response.choices[0].message.content)

Node.js

const response =awaitfetch('http://localhost:8080/v1/chat/completions',{method:'POST',headers:{'Content-Type':'application/json'},body:JSON.stringify({model:'qwen2.5-3b',messages:[{role:'user',content:'你好'}]})});const data =await response.json(); console.log(data.choices[0].message.content);

六、常用参数说明

服务端参数（llama-server）

参数	说明	示例
`-m`	模型路径	`-m model.gguf`
`--host`	监听地址	`--host 0.0.0.0`
`--port`	端口	`--port 8080`
`-c`	上下文长度	`-c 4096`
`-ngl`	GPU 层数	`-ngl 99`（全部放 GPU）
`-np`	并行请求数	`-np 4`
`--api-key`	设置 API Key	`--api-key your-key`

API 请求参数

参数	说明	默认值
`temperature`	随机性（0-2）	0.7
`max_tokens`	最大生成长度	模型上限
`top_p`	核采样	1.0
`stream`	流式输出	false
`stop`	停止词	[]

七、常见问题

Q1: 报错 “CUDA out of memory”

减少 -ngl 数值，让部分层用 CPU 计算：

./llama-server -m model.gguf -ngl 20# 只放 20 层到 GPU

Q2: 中文乱码

PowerShell 执行：

chcp 65001

Q3: 如何后台运行服务？

nohup ./llama-server -m model.gguf --host 0.0.0.0 --port 8080> server.log 2>&1&

Q4: 如何设置 API Key 认证？

./llama-server -m model.gguf --api-key "your-secret-key"

调用时需要带上：

curl -H "Authorization: Bearer your-secret-key"...

Q5: 从其他设备访问

查看 WSL IP：hostname -I
使用该 IP 访问，如 http://172.x.x.x:8080

八、推荐模型

模型	大小	适合场景
Qwen2.5-3B-Instruct Q4	~2GB	轻量对话、低配设备
Qwen2.5-7B-Instruct Q4	~4.5GB	通用对话、代码
Qwen2.5-14B-Instruct Q4	~9GB	复杂推理
DeepSeek-R1-Distill-Qwen-7B Q4	~4.5GB	数学、逻辑推理
Mistral-7B-v0.3 Q5	~5GB	英文、代码

下载地址： https://hf-mirror.com（国内镜像）

九、文件结构

~/llama.cpp/ ├── src/ # llama.cpp 源码 │ └── build/ │ └── bin/ │ ├── llama-cli # 命令行工具 │ └── llama-server # API 服务 └── models/ # 模型存放目录 └── qwen2.5-3b-instruct-q4_k_m.gguf

十、快速启动脚本

创建 start-server.sh：

#!/bin/bashcd ~/llama.cpp/src/build/bin ./llama-server \ -m ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \ --host 0.0.0.0 \ --port 8080\ -c 4096\ -np 4

赋予执行权限：

chmod +x start-server.sh ./start-server.sh

教程整理于 2026-02-03
基于 llama.cpp b7917 + Qwen2.5-3B-Instruct

Llama-Factory训练时如何平衡计算与IO开销？

Llama-Factory训练时如何平衡计算与IO开销？在大模型微调的实际工程实践中，一个看似简单却极为关键的问题时常浮现：为什么我的GPU利用率只有30%？明明配置了高端显卡，训练速度却不尽人意。答案往往不在模型结构本身，而藏于计算与IO之间的资源失衡之中。尤其当使用如 Llama-Factory 这类一站式微调框架时，虽然上手门槛大幅降低，但若忽视底层系统行为的协调性，仍可能陷入“数据等磁盘、GPU等数据”的恶性循环。真正的高效训练，不只是选对算法，更在于让每一块硬件都持续运转、各司其职。要理解这个问题的本质，不妨从一次典型的训练流程说起。当你点击“开始训练”后，系统并不会立刻进入高负载计算状态——它首先要加载数据集、分词编码、组批填充，再传入模型进行前向传播。这个过程中，任何一个环节滞后，都会导致后续阶段停滞。以一个8B参数级别的LLM为例，在启用LoRA的情况下，单卡A100或许能承载整个训练过程。但如果数据是从普通SSD逐条读取、未做缓存处理，那么GPU很可能每运行200毫秒就要等待500毫秒的数据供给。这种现象被称为“GPU饥饿”，是IO瓶颈最直观的表现。

效果惊艳！通义千问2.5-7B打造的智能写作案例分享

效果惊艳！通义千问2.5-7B打造的智能写作案例分享在当前AI技术快速落地的大背景下，如何选择一个性能强劲、部署灵活、支持商用的语言模型，成为企业与开发者关注的核心问题。通义千问于2024年9月发布的 Qwen2.5-7B-Instruct 模型，凭借其卓越的综合能力与出色的推理效率，迅速成为中等规模模型中的“全能选手”。本文将围绕该模型的实际应用展开，结合 vLLM 与 Open WebUI 的部署方案，深入剖析其在智能写作场景下的表现，并提供可复用的技术实践路径。 1. Qwen2.5-7B-Instruct：为何值得重点关注？ 1.1 中等体量，全能定位 Qwen2.5-7B-Instruct 是阿里通义实验室推出的指令微调版本，参数量为70亿，采用全权重激活结构（非MoE），文件大小约为28GB（FP16精度）。尽管参数规模属于“中等”，但其在多个关键维度上展现出超越同级甚至部分13B模型的能力： * 上下文长度高达128K tokens，支持百万级汉字输入，适用于长文档摘要、法律文书分析等复杂任务； * 在 C-Eval、

AIGC时代编程新宠！如何让孩子通过DeepSeek成为未来的编程大师？

文章目录 * 一、激发编程兴趣：从游戏开始 * 二、个性化学习计划：DeepSeek的智能推荐 * 三、项目式学习：动手实践，学以致用 * 四、AI精准辅导：即时解答，深度学习 * 五、全面发展：平衡技术与人文 * 六、家长的陪伴与鼓励 * 《信息学奥赛一本通关》 * 本书定位 * 内容简介 * 作者简介 * 目录在AIGC（Artificial Intelligence Generative Content，人工智能生成内容）技术蓬勃发展的今天，教育领域正经历一场深刻的变革。DeepSeek作为一款由杭州深度求索人工智能基础技术研究有限公司倾力打造的大语言模型工具，正以其卓越的性能和广泛的应用前景，在编程教育领域大放异彩。一、激发编程兴趣：从游戏开始孩子的兴趣是学习的最好驱动力。DeepSeek能够生成一系列基于AI的互动编程游戏，这些游戏通过简单的拖拽式编程界面，让孩子在玩乐中学习编程基础。示例游戏：制作一个简单的“躲避障碍”小游戏 // 使用Scratch风格的伪代码说明 when green

在Windows11利用llama.cpp调用Qwen3.5量化模型测试

1.下载llama.cpp二进制文件访问 https://github.com/ggml-org/llama.cpp/releases 或者 https://bgithub.xyz/ggml-org/llama.cpp/releases 选择适合自己平台的。我没有独立显卡，所以选择CPU版本 https://bgithub.xyz/ggml-org/llama.cpp/releases/download/b8192/llama-b8192-bin-win-cpu-x64.zip 解压到\d\llama8\目录。 2.下载量化模型按照章北海mlpy 公众号：Ai学习的老章~ID：mindszhang666 写的知乎文章Qwen3.5 0.8B/2B/

openclaw使用llama.cpp 本地大模型部署教程

一、环境准备

1. 硬件要求

2. 安装编译工具（WSL Ubuntu）

二、下载和编译 llama.cpp

1. 克隆源码

2. 编译

三、下载模型

1. 创建模型目录

2. 下载 GGUF 模型（使用国内镜像加速）

四、运行模型

方式一：命令行交互模式

方式二：启动 API 服务

五、API 调用方法

API 信息

端点列表

调用示例

curl

Python（OpenAI SDK）

Node.js

六、常用参数说明

服务端参数（llama-server）

API 请求参数

七、常见问题

Q1: 报错 “CUDA out of memory”

Q2: 中文乱码

Q3: 如何后台运行服务？

Q4: 如何设置 API Key 认证？

Q5: 从其他设备访问

八、推荐模型

九、文件结构

十、快速启动脚本

Read more

Llama-Factory训练时如何平衡计算与IO开销？

效果惊艳！通义千问2.5-7B打造的智能写作案例分享

AIGC时代编程新宠！如何让孩子通过DeepSeek成为未来的编程大师？

在Windows11利用llama.cpp调用Qwen3.5量化模型测试