openclaw使用llama.cpp 本地大模型部署教程

优质文章学习记录

09 Apr 2026 — 4 min read

openclaw使用llama.cpp 本地大模型部署教程

本教程基于实际操作整理，适用于 Windows WSL2 环境

全程使用 openclaw 帮我搭建大模型

一、环境准备

1. 硬件要求

显卡	推荐模型	显存占用
GTX 1050 Ti (4GB)	Qwen2.5-3B Q4	~2.5GB
RTX 4060 (8GB)	Qwen2.5-7B Q4	~5GB
RTX 4090 (24GB)	Qwen2.5-32B Q4	~20GB

2. 安装编译工具（WSL Ubuntu）

sudoapt update sudoaptinstall -y cmake build-essential

二、下载和编译 llama.cpp

1. 克隆源码

mkdir -p ~/llama.cpp cd ~/llama.cpp git clone --depth 1 https://github.com/ggerganov/llama.cpp.git src

2. 编译

cd ~/llama.cpp/src mkdir build &&cd build cmake .. -DCMAKE_BUILD_TYPE=Release make -j$(nproc) llama-cli llama-server

编译完成后，可执行文件在 ~/llama.cpp/src/build/bin/ 目录下。

三、下载模型

1. 创建模型目录

mkdir -p ~/llama.cpp/models

2. 下载 GGUF 模型（使用国内镜像加速）

Qwen2.5-3B（适合 4GB 显存）：

curl -L -o ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \"https://hf-mirror.com/Qwen/Qwen2.5-3B-Instruct-GGUF/resolve/main/qwen2.5-3b-instruct-q4_k_m.gguf"

Qwen2.5-7B（适合 8GB 显存）：

curl -L -o ~/llama.cpp/models/qwen2.5-7b-instruct-q4_k_m.gguf \"https://hf-mirror.com/Qwen/Qwen2.5-7B-Instruct-GGUF/resolve/main/qwen2.5-7b-instruct-q4_k_m.gguf"

四、运行模型

方式一：命令行交互模式

cd ~/llama.cpp/src/build/bin ./llama-cli -m ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \ -c 4096\ --no-display-prompt

参数说明：

-m 模型路径
-c 上下文长度（默认 512，建议 4096）
-ngl GPU 层数（纯 CPU 可不加）

方式二：启动 API 服务

cd ~/llama.cpp/src/build/bin ./llama-server \ -m ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \ --host 0.0.0.0 \ --port 8080\ -c 4096

服务启动后访问：http://localhost:8080

五、API 调用方法

API 信息

项目	值
地址	`http://localhost:8080`
API Key	不需要（或随意填写）
兼容格式	OpenAI API

端点列表

端点	说明
`POST /v1/chat/completions`	聊天补全
`POST /v1/completions`	文本补全
`GET /health`	健康检查
`GET /`	Web 聊天界面

调用示例

curl

curl http://localhost:8080/v1/chat/completions \ -H "Content-Type: application/json"\ -d '{ "model": "qwen2.5-3b", "messages": [ {"role": "system", "content": "你是一个有帮助的助手。"}, {"role": "user", "content": "你好，介绍一下你自己"} ], "temperature": 0.7, "max_tokens": 512 }'

Python（OpenAI SDK）

from openai import OpenAI client = OpenAI( base_url="http://localhost:8080/v1", api_key="not-needed") response = client.chat.completions.create( model="qwen2.5-3b", messages=[{"role":"system","content":"你是一个有帮助的助手。"},{"role":"user","content":"你好"}], temperature=0.7, max_tokens=512)print(response.choices[0].message.content)

Node.js

const response =awaitfetch('http://localhost:8080/v1/chat/completions',{method:'POST',headers:{'Content-Type':'application/json'},body:JSON.stringify({model:'qwen2.5-3b',messages:[{role:'user',content:'你好'}]})});const data =await response.json(); console.log(data.choices[0].message.content);

六、常用参数说明

服务端参数（llama-server）

参数	说明	示例
`-m`	模型路径	`-m model.gguf`
`--host`	监听地址	`--host 0.0.0.0`
`--port`	端口	`--port 8080`
`-c`	上下文长度	`-c 4096`
`-ngl`	GPU 层数	`-ngl 99`（全部放 GPU）
`-np`	并行请求数	`-np 4`
`--api-key`	设置 API Key	`--api-key your-key`

API 请求参数

参数	说明	默认值
`temperature`	随机性（0-2）	0.7
`max_tokens`	最大生成长度	模型上限
`top_p`	核采样	1.0
`stream`	流式输出	false
`stop`	停止词	[]

七、常见问题

Q1: 报错 “CUDA out of memory”

减少 -ngl 数值，让部分层用 CPU 计算：

./llama-server -m model.gguf -ngl 20# 只放 20 层到 GPU

Q2: 中文乱码

PowerShell 执行：

chcp 65001

Q3: 如何后台运行服务？

nohup ./llama-server -m model.gguf --host 0.0.0.0 --port 8080> server.log 2>&1&

Q4: 如何设置 API Key 认证？

./llama-server -m model.gguf --api-key "your-secret-key"

调用时需要带上：

curl -H "Authorization: Bearer your-secret-key"...

Q5: 从其他设备访问

查看 WSL IP：hostname -I
使用该 IP 访问，如 http://172.x.x.x:8080

八、推荐模型

模型	大小	适合场景
Qwen2.5-3B-Instruct Q4	~2GB	轻量对话、低配设备
Qwen2.5-7B-Instruct Q4	~4.5GB	通用对话、代码
Qwen2.5-14B-Instruct Q4	~9GB	复杂推理
DeepSeek-R1-Distill-Qwen-7B Q4	~4.5GB	数学、逻辑推理
Mistral-7B-v0.3 Q5	~5GB	英文、代码

下载地址： https://hf-mirror.com（国内镜像）

九、文件结构

~/llama.cpp/ ├── src/ # llama.cpp 源码 │ └── build/ │ └── bin/ │ ├── llama-cli # 命令行工具 │ └── llama-server # API 服务 └── models/ # 模型存放目录 └── qwen2.5-3b-instruct-q4_k_m.gguf

十、快速启动脚本

创建 start-server.sh：

#!/bin/bashcd ~/llama.cpp/src/build/bin ./llama-server \ -m ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \ --host 0.0.0.0 \ --port 8080\ -c 4096\ -np 4

赋予执行权限：

chmod +x start-server.sh ./start-server.sh

教程整理于 2026-02-03
基于 llama.cpp b7917 + Qwen2.5-3B-Instruct

别再搞混了！Copilot Chat 和 Microsoft 365 Copilot 详细对比

虽然名字听起来相似 —— Microsoft 365 Copilot 和 Microsoft 365 Copilot Chat —— 但它们在多个方面存在重要区别。更关键的是，它们是相辅相成、缺一不可的。 📌 什么是 Microsoft 365 Copilot Chat？ Microsoft 365 Copilot Chat（简称 Copilot Chat），主要基于网页内容生成回答。而 Microsoft 365 Copilot 则不仅基于网页内容，还结合了用户自身的数据（如邮件、会议、文件等）。自 2025年1月15日起，Copilot Chat 已对所有组织全面开放。即使是订阅了 Microsoft 365 Business Basic 的客户，也能安全地使用 Copilot Chat。

whisper.cpp - 高性能Whisper语音识别推理

文章目录 * 一、关于 whisper.cpp * 1、项目概览 * 2、相关链接资源 * 3、功能特性 * 二、安装配置 * 三、使用示例 * 1、基础转录 * 2、实时音频处理 * 3、量化模型使用 * 四、高级功能 * 1、Core ML加速(Mac) * 2、OpenVINO加速 * 3、NVIDIA CUDA加速 * 五、性能参考 * 六、扩展支持 * 1、Docker使用 * 2、语言绑定 * 七、注意事项一、关于 whisper.cpp 1、项目概览 whisper.cpp

Whisper Android离线语音识别完整指南

Whisper Android离线语音识别完整指南【免费下载链接】whisper_androidOffline Speech Recognition with OpenAI Whisper and TensorFlow Lite for Android 项目地址: https://gitcode.com/gh_mirrors/wh/whisper_android 厌倦了网络依赖的语音识别应用？想要在Android设备上实现真正的离线语音转文字功能？Whisper Android项目为您带来了完美的解决方案！结合OpenAI的Whisper模型与TensorFlow Lite，这个开源项目让您随时随地享受高质量的语音识别服务。 🤔 为什么选择离线语音识别？在当今移动互联网时代，网络连接并不总是可靠。想象一下这些场景： * 在信号较差的山区或地下室需要记录重要信息 * 出国旅行时无法使用网络服务 * 涉及隐私的敏感语音内容处理离线语音识别正是解决这些痛点的最佳选择！它不仅保护您的隐私安全，还提供无延迟的即时响应体验。 🎯 项目核心优势对比特性Jav

Cogito-v1-preview-llama-3B保姆级教程：Ollama模型卸载、重载与缓存清理

Cogito-v1-preview-llama-3B保姆级教程：Ollama模型卸载、重载与缓存清理本文详细讲解Cogito v1预览版模型的完整使用流程，重点介绍如何正确卸载、重载模型以及清理缓存，帮助您更好地管理Ollama环境中的AI模型。 1. Cogito v1预览版模型介绍 Cogito v1预览版是Deep Cogito推出的混合推理模型系列，这个3B参数的模型在大多数标准基准测试中都表现出色，超越了同等规模下最优的开源模型。无论是来自LLaMA、DeepSeek还是Qwen等模型的同类产品，Cogito v1都展现出了更强的性能。 Cogito模型是经过指令调优的生成式模型，采用文本输入和文本输出的方式。最重要的是，所有模型都以开放许可发布，允许商业使用，这为开发者提供了极大的便利。模型核心特点： * 混合推理能力：既可以直接回答问题，也可以在回答前进行自我反思 * 使用迭代蒸馏和放大（IDA）训练策略，通过自我改进实现智能提升 * 针对编码、STEM、指令执行和通用帮助性进行了专门优化 * 支持超过30种语言，上下文长度达到128k * 在

openclaw使用llama.cpp 本地大模型部署教程

一、环境准备

1. 硬件要求

2. 安装编译工具（WSL Ubuntu）

二、下载和编译 llama.cpp

1. 克隆源码

2. 编译

三、下载模型

1. 创建模型目录

2. 下载 GGUF 模型（使用国内镜像加速）

四、运行模型

方式一：命令行交互模式

方式二：启动 API 服务

五、API 调用方法

API 信息

端点列表

调用示例

curl

Python（OpenAI SDK）

Node.js

六、常用参数说明

服务端参数（llama-server）

API 请求参数

七、常见问题

Q1: 报错 “CUDA out of memory”

Q2: 中文乱码

Q3: 如何后台运行服务？

Q4: 如何设置 API Key 认证？

Q5: 从其他设备访问

八、推荐模型

九、文件结构

十、快速启动脚本

Read more

别再搞混了！Copilot Chat 和 Microsoft 365 Copilot 详细对比

whisper.cpp - 高性能Whisper语音识别推理

Whisper Android离线语音识别完整指南

Cogito-v1-preview-llama-3B保姆级教程：Ollama模型卸载、重载与缓存清理