openclaw使用llama.cpp 本地大模型部署教程

Ne0inhk

24 Mar 2026 — 4 min read

openclaw使用llama.cpp 本地大模型部署教程

本教程基于实际操作整理，适用于 Windows WSL2 环境

全程使用 openclaw 帮我搭建大模型

一、环境准备

1. 硬件要求

显卡	推荐模型	显存占用
GTX 1050 Ti (4GB)	Qwen2.5-3B Q4	~2.5GB
RTX 4060 (8GB)	Qwen2.5-7B Q4	~5GB
RTX 4090 (24GB)	Qwen2.5-32B Q4	~20GB

2. 安装编译工具（WSL Ubuntu）

sudoapt update sudoaptinstall -y cmake build-essential

二、下载和编译 llama.cpp

1. 克隆源码

mkdir -p ~/llama.cpp cd ~/llama.cpp git clone --depth 1 https://github.com/ggerganov/llama.cpp.git src

2. 编译

cd ~/llama.cpp/src mkdir build &&cd build cmake .. -DCMAKE_BUILD_TYPE=Release make -j$(nproc) llama-cli llama-server

编译完成后，可执行文件在 ~/llama.cpp/src/build/bin/ 目录下。

三、下载模型

1. 创建模型目录

mkdir -p ~/llama.cpp/models

2. 下载 GGUF 模型（使用国内镜像加速）

Qwen2.5-3B（适合 4GB 显存）：

curl -L -o ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \"https://hf-mirror.com/Qwen/Qwen2.5-3B-Instruct-GGUF/resolve/main/qwen2.5-3b-instruct-q4_k_m.gguf"

Qwen2.5-7B（适合 8GB 显存）：

curl -L -o ~/llama.cpp/models/qwen2.5-7b-instruct-q4_k_m.gguf \"https://hf-mirror.com/Qwen/Qwen2.5-7B-Instruct-GGUF/resolve/main/qwen2.5-7b-instruct-q4_k_m.gguf"

四、运行模型

方式一：命令行交互模式

cd ~/llama.cpp/src/build/bin ./llama-cli -m ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \ -c 4096\ --no-display-prompt

参数说明：

-m 模型路径
-c 上下文长度（默认 512，建议 4096）
-ngl GPU 层数（纯 CPU 可不加）

方式二：启动 API 服务

cd ~/llama.cpp/src/build/bin ./llama-server \ -m ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \ --host 0.0.0.0 \ --port 8080\ -c 4096

服务启动后访问：http://localhost:8080

五、API 调用方法

API 信息

项目	值
地址	`http://localhost:8080`
API Key	不需要（或随意填写）
兼容格式	OpenAI API

端点列表

端点	说明
`POST /v1/chat/completions`	聊天补全
`POST /v1/completions`	文本补全
`GET /health`	健康检查
`GET /`	Web 聊天界面

调用示例

curl

curl http://localhost:8080/v1/chat/completions \ -H "Content-Type: application/json"\ -d '{ "model": "qwen2.5-3b", "messages": [ {"role": "system", "content": "你是一个有帮助的助手。"}, {"role": "user", "content": "你好，介绍一下你自己"} ], "temperature": 0.7, "max_tokens": 512 }'

Python（OpenAI SDK）

from openai import OpenAI client = OpenAI( base_url="http://localhost:8080/v1", api_key="not-needed") response = client.chat.completions.create( model="qwen2.5-3b", messages=[{"role":"system","content":"你是一个有帮助的助手。"},{"role":"user","content":"你好"}], temperature=0.7, max_tokens=512)print(response.choices[0].message.content)

Node.js

const response =awaitfetch('http://localhost:8080/v1/chat/completions',{method:'POST',headers:{'Content-Type':'application/json'},body:JSON.stringify({model:'qwen2.5-3b',messages:[{role:'user',content:'你好'}]})});const data =await response.json(); console.log(data.choices[0].message.content);

六、常用参数说明

服务端参数（llama-server）

参数	说明	示例
`-m`	模型路径	`-m model.gguf`
`--host`	监听地址	`--host 0.0.0.0`
`--port`	端口	`--port 8080`
`-c`	上下文长度	`-c 4096`
`-ngl`	GPU 层数	`-ngl 99`（全部放 GPU）
`-np`	并行请求数	`-np 4`
`--api-key`	设置 API Key	`--api-key your-key`

API 请求参数

参数	说明	默认值
`temperature`	随机性（0-2）	0.7
`max_tokens`	最大生成长度	模型上限
`top_p`	核采样	1.0
`stream`	流式输出	false
`stop`	停止词	[]

七、常见问题

Q1: 报错 “CUDA out of memory”

减少 -ngl 数值，让部分层用 CPU 计算：

./llama-server -m model.gguf -ngl 20# 只放 20 层到 GPU

Q2: 中文乱码

PowerShell 执行：

chcp 65001

Q3: 如何后台运行服务？

nohup ./llama-server -m model.gguf --host 0.0.0.0 --port 8080> server.log 2>&1&

Q4: 如何设置 API Key 认证？

./llama-server -m model.gguf --api-key "your-secret-key"

调用时需要带上：

curl -H "Authorization: Bearer your-secret-key"...

Q5: 从其他设备访问

查看 WSL IP：hostname -I
使用该 IP 访问，如 http://172.x.x.x:8080

八、推荐模型

模型	大小	适合场景
Qwen2.5-3B-Instruct Q4	~2GB	轻量对话、低配设备
Qwen2.5-7B-Instruct Q4	~4.5GB	通用对话、代码
Qwen2.5-14B-Instruct Q4	~9GB	复杂推理
DeepSeek-R1-Distill-Qwen-7B Q4	~4.5GB	数学、逻辑推理
Mistral-7B-v0.3 Q5	~5GB	英文、代码

下载地址： https://hf-mirror.com（国内镜像）

九、文件结构

~/llama.cpp/ ├── src/ # llama.cpp 源码 │ └── build/ │ └── bin/ │ ├── llama-cli # 命令行工具 │ └── llama-server # API 服务 └── models/ # 模型存放目录 └── qwen2.5-3b-instruct-q4_k_m.gguf

十、快速启动脚本

创建 start-server.sh：

#!/bin/bashcd ~/llama.cpp/src/build/bin ./llama-server \ -m ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \ --host 0.0.0.0 \ --port 8080\ -c 4096\ -np 4

赋予执行权限：

chmod +x start-server.sh ./start-server.sh

教程整理于 2026-02-03
基于 llama.cpp b7917 + Qwen2.5-3B-Instruct

2026年最新AI大模型学习路线（超详细，小白/程序员必收藏）从入门到精通！

当下AI大模型在人工智能领域的热度持续攀升，已然成为技术圈的核心风口，不仅吸引了大量行业从业者深耕，更有无数编程小白、转行人士想要入门掘金。但很多人面对繁杂的技术资料无从下手，不知道该从哪里开始、按什么顺序学习，踩了不少弯路。今天就给大家整理了一份2026年最新、最系统的AI大模型学习路线，从0基础入门到精通实战，配套全套学习资源，不管你是纯小白还是有一定基础的程序员，跟着学就能少走弯路、快速上手，建议收藏备用，避免后续找不到！ 1、大模型学习路线 2、从0到进阶大模型学习视频教程从入门到进阶这里都有，跟着老师学习事半功倍。 3、入门必看大模型学习书籍&文档.pdf（书面上的技术书籍确实太多了，这些是我精选出来的，还有很多不在图里） 4、 AI大模型最新行业报告 2026最新行业报告，针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。 5、面试试题/经验【大厂 AI 岗位面经分享（107 道）】【AI

医疗编程AI技能树与培训技能树报告（国内外一流大学医疗AI相关专业分析2025版，上）

引言：医疗AI编程的时代背景与技能体系框架全球医疗AI市场正以爆发式速度增长，预计2025年市场规模将达到1100亿美元，年复合增长率（CAGR）高达38%[1]。这一增长背后是AI技术在临床场景的深度渗透：AI辅助肺结节检测敏感度已突破95%，某知名医院利用大型语言模型（LLM）开发的智能诊断系统将误诊率降低15%，瑞金医院通过AI技术使病理诊断效率提升百倍[2][3][4]。当手术机

【保姆级教程】小白也能搞定！手把手教你部署AI小说生成器

目录一、磨刀不误砍柴工：环境准备二、第一次安装：给代码安个家第一步：把项目“搬”回家第二步：造一个专属“房间” 第三步：安装依赖第四步：点火启动三、关机重启后：如何再次开启？四、关键一步：配置“大脑”（API接口）五、开始你的创作六、写在最后：为什么推荐用蓝耘做“大脑”？在这个AI辅助创作爆发的时代，拥有一款属于自己的本地AI写作工具，无疑是许多文字工作者的梦想。最近拿到一份AI小说生成器的部署文档，虽然功能强大，但对于非技术出身的朋友来说，那些代码和命令行多少有些“劝退”。别担心，今天我们就把这份“天书”翻译成“人话”，手把手带你从零开始，搭建属于你的AI创作助手。无论你是第一次安装，还是关机后不知道怎么重启，这篇教程都能帮你搞定。

【AI辅助编程】【Claude Code】----秒杀 Cursor！Claude Code 保姆级教程，从安装到实战全过程，一篇文章给你透

文章目录 * 前言 * 一、基础概念解析， * 1.1、什么是Claude Code？ * 1.2、Claude Code能干嘛？ * 二、安装 Claude Code * 2.1、（方式一）基于node.js环境 * 2.2、（方式二）不依赖node.js环境，原生版（推荐） * 三、配置 * 3.1配置大模型端点和密钥 * 1.注册账号（通过上面提供的连接注册） * 2.获取API Key * 3.配置cluade code 环境变量 * 4.测试配置： * 5.切换模型（非必要，可跳过） * 6.查看token用量

openclaw使用llama.cpp 本地大模型部署教程

一、环境准备

1. 硬件要求

2. 安装编译工具（WSL Ubuntu）

二、下载和编译 llama.cpp

1. 克隆源码

2. 编译

三、下载模型

1. 创建模型目录

2. 下载 GGUF 模型（使用国内镜像加速）

四、运行模型

方式一：命令行交互模式

方式二：启动 API 服务

五、API 调用方法

API 信息

端点列表

调用示例

curl

Python（OpenAI SDK）

Node.js

六、常用参数说明

服务端参数（llama-server）

API 请求参数

七、常见问题

Q1: 报错 “CUDA out of memory”

Q2: 中文乱码

Q3: 如何后台运行服务？

Q4: 如何设置 API Key 认证？

Q5: 从其他设备访问

八、推荐模型

九、文件结构

十、快速启动脚本

Read more

2026年最新AI大模型学习路线（超详细，小白/程序员必收藏）从入门到精通！

医疗编程AI技能树与培训技能树报告（国内外一流大学医疗AI相关专业分析2025版，上）

【保姆级教程】小白也能搞定！手把手教你部署AI小说生成器

【AI辅助编程】【Claude Code】----秒杀 Cursor！Claude Code 保姆级教程，从安装到实战全过程，一篇文章给你透