openclaw使用本地llama.cpp

优质文章学习记录

07 Apr 2026 — 1 min read

llama.cpp兼容openapi接口，自然可以作为openclaw的后端。
添加自定义provider同前：为openclaw增加自定义provider
反复修改，总是不能得到正确的model状态。

{"meta":{"lastTouchedVersion":"2026.2.3-1", "lastTouchedAt":"2026-02-05T12:16:30.399Z"}, "wizard":{"lastRunAt":"2026-01-30T12:20:58.674Z", "lastRunVersion":"2026.1.29", "lastRunCommand":"onboard", "lastRunMode":"local"}, "models":{"mode":"merge", "providers":{"llamacpp":{"baseUrl":"http://192.168.1.182:8087/v1", "apiKey":"no need key", "api":"openai-completions", "models":[{"id":"Qwen3-8B-Q6_K", "name":"Qwen3", "api":"openai-completions", "reasoning": true, "input":["text"], "cost":{"input":0, "output":0, "cacheRead":0, "cacheWrite":0}, "contextWindow":262144, "maxTokens":32000}]}}}, "agents":{"defaults":{"model":{"primary":"llamacpp/Qwen3-8B-Q6_K"}, "models":{"llamacpp/Qwen3-8B-Q6_K":{"alias":"Qwen3"}}, "maxConcurrent":4, "subagents":{"maxConcurrent":8}}}, "messages":{"ackReactionScope":"group-mentions"}, "commands":{"native":"auto", "nativeSkills":"auto"}, "gateway":{"port":18789, "mode":"local", "bind":"loopback", "auth":{"mode":"token", "token":"a08c51975f90e3afa566f4af1de977a70b6e9630909cc8c0", "password":"a08c51975f90e3afa566f4af1de977a70b6e9630909cc8c0"}, "tailscale":{"mode":"off", "resetOnExit":false}}, "skills":{"install":{"nodeManager":"npm"}}}

注意C:\Users\yusp7.openclaw\agents\main\agent\models.json，要与config\models\provider里一致，内容不能有重复provider名的：

{"providers":{"llamacpp":{"baseUrl":"http://192.168.1.182:8087/v1", "apiKey":"no need key", "api":"openai-completions", "models":[{"id":"Qwen3-8B-Q6_K", "name":"Qwen3", "api":"openai-completions", "reasoning": true, "input":["text"], "cost":{"input":0, "output":0, "cacheRead":0, "cacheWrite":0}, "contextWindow":262144, "maxTokens":32000}]}}}

在这里插入图片描述

但是，为什么返回的对话不对？

在这里插入图片描述

Read more

Llama-3.2-3B效果实测：Ollama平台下10万字PDF文档摘要质量分析

Llama-3.2-3B效果实测：Ollama平台下10万字PDF文档摘要质量分析 1. 为什么选Llama-3.2-3B做长文档摘要？你有没有遇到过这样的情况：手头有一份50页的技术白皮书、一份80页的行业研究报告，或者一份120页的产品需求文档，领导说“今天下班前给我一个三页以内的核心要点总结”？翻完目录就花了半小时，通读一遍至少两小时，最后写出来的摘要还被说“重点不突出”“逻辑不清晰”。这次我决定用刚发布的Llama-3.2-3B模型，在Ollama平台上实测它处理真实长文档的能力。不是跑个标准数据集打个分就完事，而是直接拿一份真实的10.2万字PDF文档——某头部新能源车企发布的《2024智能驾驶技术白皮书》（含图表说明、参数表格、架构图文字描述），全程不切片、不预处理，只做最基础的文本提取，看它能不能真正帮人“读懂厚文档”。选择Llama-3.2-3B不是跟风。它和上一代相比，指令微调更聚焦在“摘要”和“检索增强”这类任务上，官方明确提到对长上下文理解做了针对性优化。而Ollama平台的优势在于：零配置部署、本地运行不传数据、命令行+Web双模式，特别适合需要

2026 AI大模型实战：零基础玩转当下最火的AIGC

哈喽宝子们，2026年的AI大模型赛道简直卷出了新高度，中关村论坛上昆仑万维发布的Matrix-Game 3.0、SkyReels V4、Mureka V9三大世界级模型直接把全模态AIGC推上了新风口，而且昆仑天工旗下的SkyText、SkyCode等多款模型还开放了开源API，普通人也能轻松玩转AI大模型开发了。一、当下 AI 大模型核心热点：人人都能做 AI 开发 1.全模态成主流：昆仑万维的 SkyReels V4 视频大模型实现音画一体生成、Mureka V9 音乐大模型支持创作意图精准落地，AI 从单一文本生成进入文本 / 图像 / 音频 / 视频全模态创作时代； 2.开源 API 全面开放：昆仑天工的 SkyText（文本生成）、SkyCode（代码生成）等模型开源，无需自建大模型，通过简单 API 就能实现商用级 AI 功能； 3.

Llama Factory微调显存计算器：输入模型参数立即获得最佳GPU配置

Llama Factory微调显存计算器：输入模型参数立即获得最佳GPU配置作为一名经常微调大模型的ML工程师，你是否也经历过这样的痛苦：每次尝试新模型时，总要反复调整显存配置，不断试错才能找到合适的GPU资源？这不仅浪费时间，还浪费宝贵的计算资源。今天我要分享一个实用工具——Llama Factory微调显存计算器，它能根据你的模型参数自动推荐最佳GPU配置和deepspeed参数，彻底告别手动试错。为什么需要显存计算器大模型微调过程中，显存配置是最让人头疼的问题之一。根据我的实战经验，影响显存需求的主要因素有： * 模型参数量：7B、13B、70B等不同规模的模型显存需求差异巨大 * 微调方法：全参数微调、LoRA、QLoRA等方法对显存的要求各不相同 * 训练配置：batch size、序列长度等参数会显著影响显存占用传统做法是凭经验猜测，然后不断尝试调整，这不仅效率低下，还经常导致OOM（内存溢出）错误。Llama Factory微调显存计算器正是为解决这一痛点而生。计算器核心功能解析这个显存计算器集成在LLaMA-Factory框架中，主要

StructBERT-Large实战教程：单句对多句批量检索模式扩展开发指南

StructBERT-Large实战教程：单句对多句批量检索模式扩展开发指南 1. 项目概述与核心价值如果你正在处理中文文本的语义匹配任务，比如从大量文档中快速找到相关内容，或者需要判断两个句子的相似程度，那么StructBERT-Large将是你的得力助手。这个工具基于阿里达摩院开源的StructBERT大规模预训练模型，专门针对中文语义理解进行了优化。与传统的文本匹配方法不同，它能够深入理解句子的语法结构和语义内涵，将中文句子转化为高质量的数值向量（Embedding），然后通过数学计算精确量化两个句子之间的相似程度。核心能力亮点： * 深度理解中文语法和语义结构 * 将文本转换为可计算的数值向量 * 快速准确计算句子相似度 * 支持扩展到批量文本处理场景 2. 环境准备与快速部署 2.1 系统要求与依赖安装在开始之前，确保你的系统满足以下要求： * Python 3.8或更高版本 * NVIDIA显卡（推荐RTX 4090或同级别显卡） * 至少8GB系统内存 * 足够的显卡显存（模型加载需要约1.5-2GB）安装必要的依赖库：