OpenClaw 本地推理方案:基于 Ollama 部署开源模型降低 Token 成本
OpenClaw 2026.2.26 版本移除命令行认证参数导致配置失效,本文提供基于 Ollama 部署开源模型的本地化解决方案。通过手动创建 auth-profiles.json 文件配置 Ollama 地址与模型,实现本地推理替代云端 Token 消耗。方案支持 CPU/GPU 加速,具备零成本、高隐私及断网可用优势,解决高频任务与长文本交互的成本痛点。

OpenClaw 2026.2.26 版本移除命令行认证参数导致配置失效,本文提供基于 Ollama 部署开源模型的本地化解决方案。通过手动创建 auth-profiles.json 文件配置 Ollama 地址与模型,实现本地推理替代云端 Token 消耗。方案支持 CPU/GPU 加速,具备零成本、高隐私及断网可用优势,解决高频任务与长文本交互的成本痛点。


OpenClaw(社区昵称'大龙虾')作为 AI Agent 框架,凭借强大的自动化执行能力成为开发者标配。但随着使用频次提升,云端大模型 Token 消耗成本居高不下,成为个人开发者与中小企业的核心痛点。本文针对最新版 OpenClaw 2026.2.26,提供一套可复现的本地化解决方案:通过 Ollama 部署开源大模型,彻底摆脱云端依赖,解决命令行参数失效、认证配置错误等核心问题,实现'本地推理 + 本地执行'的全闭环,兼顾成本、隐私与性能。
关键词:OpenClaw;Ollama;本地部署;开源模型;Token 降本;AI Agent;2026.2.26
OpenClaw 的核心能力依赖大模型的语义理解与任务规划,默认配置下多对接云端闭源模型(如 GPT-4、Claude 等)。在实际生产中,以下场景会导致 Token 费用失控:
更关键的是,OpenClaw 2026.2.26 版本对 agents add 命令进行了大幅重构,移除了 --provider、--api-key 等传统参数,导致旧版配置教程全部失效,开发者在切换本地模型时频繁遇到 No API key found for provider "ollama" 报错。
本文将基于最新版本,提供推荐的手动配置方案,彻底解决成本与配置双重问题。
| 组件 | 核心价值 | 版本适配 |
|---|---|---|
| OpenClaw 2026.2.26 | 核心 AI Agent 执行框架,负责任务调度与系统交互 | 最新稳定版 |
| Ollama | 本地大模型运行时,简化开源模型部署与管理 | v0.1.48+(支持 480 + 开源模型) |
| 开源模型 | 替代云端闭源模型,零成本推理 | Llama3-8B-Q4_K_M(平衡性能与效果) |
| 硬件类型 | 最低配置 | 推荐配置 | 说明 |
|---|---|---|---|
| 内存 | 8GB | 16GB+ | 运行 4-bit 量化模型的基础要求 |
| CPU | 4 核 8 线程 | 8 核 16 线程 | CPU 推理足够支撑轻量任务 |
| GPU | 无(支持 CPU 推理) | NVIDIA RTX 3090/4090 | 开启 CUDA 加速后推理速度提升 5-10 倍 |
# 官方一键安装脚本
curl -fsSL https://ollama.com/install.sh | sh
# 查看版本
ollama --version
# 启动 Ollama 服务(默认端口 11434)
ollama serve &
# 验证服务连通性
curl -s http://localhost:11434/api/tags
# 输出{"models":[]}表示服务正常
结合 OpenClaw 的任务规划需求,优先选择指令微调、量化级别适中的模型。推荐以下 3 款,适配不同硬件:
| 模型名称 | 量化级别 | 内存占用 | 适用场景 | 拉取命令 |
|---|---|---|---|---|
| Llama3-8B-Instruct-Q4_K_M | 4-bit | ~5GB | 通用任务、自动化脚本 | ollama pull llama3:8b-instruct-q4_K_M |
| Qwen2-7B-Instruct-Q4_K_M | 4-bit | ~4.5GB | 中文优化、文案撰写 | ollama pull qwen2:7b-instruct-q4_K_M |
| GLM-4-9B-Chat-Q4_K_M | 4-bit | ~5.5GB | 代码生成、技术文档 | ollama pull glm4:9b-chat-q4_K_M |
执行拉取(以 Llama3-8B 为例):
ollama pull llama3:8b-instruct-q4_K_M
OpenClaw 2026.2.26 版本彻底移除了 --api-key/--provider 命令行参数,认证信息必须通过 auth-profiles.json 文件手动配置。
# 创建认证目录
mkdir -p /home/node/.openclaw/agents/main/agent/
# 生成认证文件,适配 2026.2.26 版本语法
cat > /home/node/.openclaw/agents/main/agent/auth-profiles.json << 'EOF'
{
"default": {
"ollama": {
"baseUrl": "http://localhost:11434",
"model": "llama3:8b-instruct-q4_K_M",
"profileId": "ollama"
}
},
"ollama": {
"baseUrl": "http://localhost:11434",
"model": "llama3:8b-instruct-q4_K_M",
"profileId": "ollama"
}
}
EOF
OpenClaw 以 node 用户运行,必须确保文件归属正确:
chown -R node:node /home/node/.openclaw/
chmod 644 /home/node/.openclaw/agents/main/agent/auth-profiles.json
chmod -R 755 /home/node/.openclaw/
解决日志中 plugins.allow is empty 的警告:
cat > /home/node/.openclaw/config.json << 'EOF'
{
"plugins": {
"allow": ["feishu"]
}
}
EOF
chown node:node /home/node/.openclaw/config.json
创建简单的测试脚本 test_ollama.claw,验证任务执行:
cat > /app/test_ollama.claw << 'EOF'
# 测试本地模型的任务规划能力
task "本地模型测试" {
prompt = "请生成一个 Python 脚本,实现计算 1 到 100 的和,并添加注释"
action "执行代码生成" {
type = "run"
command = "python"
args = ["-c", "{{prompt.result}}"]
}
}
EOF
# 以 node 用户运行(避免权限问题)
su - node -c "cd /app && openclaw run test_ollama.claw"
No API key found for provider "ollama";5050;开启 CUDA 加速,推理速度提升 5-10 倍:
# 停止当前 Ollama 服务
pkill ollama
# 启用 CUDA 加速并重启
OLLAMA_CUDA=1 ollama serve &
针对低内存设备,选择 3-bit 量化模型(如 llama3:8b-instruct-q3_K_M),内存占用降至~4GB:
ollama pull llama3:8b-instruct-q3_K_M
# 修改认证文件中的 model 字段即可切换
针对长文本任务,通过 Ollama 环境变量扩大上下文窗口:
OLLAMA_MAX_CONTEXT=8192 ollama serve &
| 报错信息 | 根因 | 解决方案 |
|---|---|---|
unknown option '--provider' | 2026.2.26 版本移除该参数 | 放弃命令行配置,使用本文的手动文件配置 |
unknown option '--api-key' | 2026.2.26 版本移除该参数 | 无需配置 API Key,Ollama 本地模型不需要 |
Permission denied | 认证文件归属非 node 用户 | 执行 chown -R node:node /home/node/.openclaw/ |
Ollama service unreachable | Ollama 未启动或端口被占用 | 执行 ollama serve &,检查 11434 端口是否被占用 |
| 方案 | 月均成本 | 长期成本 | 隐私性 | 网络依赖 |
|---|---|---|---|---|
| 云端 GPT-4o | 约 500 元 | 逐年递增 | 低(数据上传) | 强依赖 |
| Ollama+Llama3-8B | 0 元 | 0 元 | 高(本地推理) | 无依赖 |
本文针对 OpenClaw 2026.2.26 版本的核心痛点,提供了一套可复现的本地化推理方案,通过 Ollama 部署开源模型,彻底解决了云端 Token 消耗过高与命令行配置失效的问题。
对于个人开发者与中小企业,该方案不仅能大幅降低成本,还能保障数据隐私;对于 AI 产品团队,可将此方案集成到产品部署文档中,为客户提供更灵活的本地化选项。
未来,随着开源模型的持续迭代,本地推理的效果将进一步逼近云端闭源模型,OpenClaw+Ollama 的组合将成为 AI Agent 本地化部署的标准方案。
# Ollama 常用命令
ollama --version # 查看版本
ollama serve & # 启动服务
ollama pull <模型名> # 拉取模型
ollama list # 查看已部署模型
ollama rm <模型名> # 删除模型
# OpenClaw 常用命令
su - node -c "openclaw run <脚本名>" # 运行任务脚本
su - node -c "openclaw agents list" # 查看 agent 列表
cat /home/node/.openclaw/agents/main/agent/auth-profiles.json # 查看认证配置

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online
将 HTML 片段转为 GitHub Flavored Markdown,支持标题、列表、链接、代码块与表格等;浏览器内处理,可链接预填。 在线工具,HTML转Markdown在线工具,online