openclaw使用本地llama.cpp

llama.cpp兼容openapi接口,自然可以作为openclaw的后端。
添加自定义provider同前:为openclaw增加自定义provider
反复修改,总是不能得到正确的model状态。

{"meta":{"lastTouchedVersion":"2026.2.3-1", "lastTouchedAt":"2026-02-05T12:16:30.399Z"}, "wizard":{"lastRunAt":"2026-01-30T12:20:58.674Z", "lastRunVersion":"2026.1.29", "lastRunCommand":"onboard", "lastRunMode":"local"}, "models":{"mode":"merge", "providers":{"llamacpp":{"baseUrl":"http://192.168.1.182:8087/v1", "apiKey":"no need key", "api":"openai-completions", "models":[{"id":"Qwen3-8B-Q6_K", "name":"Qwen3", "api":"openai-completions", "reasoning": true, "input":["text"], "cost":{"input":0, "output":0, "cacheRead":0, "cacheWrite":0}, "contextWindow":262144, "maxTokens":32000}]}}}, "agents":{"defaults":{"model":{"primary":"llamacpp/Qwen3-8B-Q6_K"}, "models":{"llamacpp/Qwen3-8B-Q6_K":{"alias":"Qwen3"}}, "maxConcurrent":4, "subagents":{"maxConcurrent":8}}}, "messages":{"ackReactionScope":"group-mentions"}, "commands":{"native":"auto", "nativeSkills":"auto"}, "gateway":{"port":18789, "mode":"local", "bind":"loopback", "auth":{"mode":"token", "token":"a08c51975f90e3afa566f4af1de977a70b6e9630909cc8c0", "password":"a08c51975f90e3afa566f4af1de977a70b6e9630909cc8c0"}, "tailscale":{"mode":"off", "resetOnExit":false}}, "skills":{"install":{"nodeManager":"npm"}}}

注意C:\Users\yusp7.openclaw\agents\main\agent\models.json,要与config\models\provider里一致,内容不能有重复provider名的:

{"providers":{"llamacpp":{"baseUrl":"http://192.168.1.182:8087/v1", "apiKey":"no need key", "api":"openai-completions", "models":[{"id":"Qwen3-8B-Q6_K", "name":"Qwen3", "api":"openai-completions", "reasoning": true, "input":["text"], "cost":{"input":0, "output":0, "cacheRead":0, "cacheWrite":0}, "contextWindow":262144, "maxTokens":32000}]}}}
在这里插入图片描述


但是,为什么返回的对话不对?

在这里插入图片描述

Read more

Llama-3.2-3B效果实测:Ollama平台下10万字PDF文档摘要质量分析

Llama-3.2-3B效果实测:Ollama平台下10万字PDF文档摘要质量分析 1. 为什么选Llama-3.2-3B做长文档摘要? 你有没有遇到过这样的情况:手头有一份50页的技术白皮书、一份80页的行业研究报告,或者一份120页的产品需求文档,领导说“今天下班前给我一个三页以内的核心要点总结”?翻完目录就花了半小时,通读一遍至少两小时,最后写出来的摘要还被说“重点不突出”“逻辑不清晰”。 这次我决定用刚发布的Llama-3.2-3B模型,在Ollama平台上实测它处理真实长文档的能力。不是跑个标准数据集打个分就完事,而是直接拿一份真实的10.2万字PDF文档——某头部新能源车企发布的《2024智能驾驶技术白皮书》(含图表说明、参数表格、架构图文字描述),全程不切片、不预处理,只做最基础的文本提取,看它能不能真正帮人“读懂厚文档”。 选择Llama-3.2-3B不是跟风。它和上一代相比,指令微调更聚焦在“摘要”和“检索增强”这类任务上,官方明确提到对长上下文理解做了针对性优化。而Ollama平台的优势在于:零配置部署、本地运行不传数据、命令行+Web双模式,特别适合需要

2026 AI大模型实战:零基础玩转当下最火的AIGC

哈喽宝子们,2026年的AI大模型赛道简直卷出了新高度,中关村论坛上昆仑万维发布的Matrix-Game 3.0、SkyReels V4、Mureka V9三大世界级模型直接把全模态AIGC推上了新风口,而且昆仑天工旗下的SkyText、SkyCode等多款模型还开放了开源API,普通人也能轻松玩转AI大模型开发了。 一、当下 AI 大模型核心热点:人人都能做 AI 开发 1.全模态成主流:昆仑万维的 SkyReels V4 视频大模型实现音画一体生成、Mureka V9 音乐大模型支持创作意图精准落地,AI 从单一文本生成进入文本 / 图像 / 音频 / 视频全模态创作时代; 2.开源 API 全面开放:昆仑天工的 SkyText(文本生成)、SkyCode(代码生成)等模型开源,无需自建大模型,通过简单 API 就能实现商用级 AI 功能; 3.

Llama Factory微调显存计算器:输入模型参数立即获得最佳GPU配置

Llama Factory微调显存计算器:输入模型参数立即获得最佳GPU配置 作为一名经常微调大模型的ML工程师,你是否也经历过这样的痛苦:每次尝试新模型时,总要反复调整显存配置,不断试错才能找到合适的GPU资源?这不仅浪费时间,还浪费宝贵的计算资源。今天我要分享一个实用工具——Llama Factory微调显存计算器,它能根据你的模型参数自动推荐最佳GPU配置和deepspeed参数,彻底告别手动试错。 为什么需要显存计算器 大模型微调过程中,显存配置是最让人头疼的问题之一。根据我的实战经验,影响显存需求的主要因素有: * 模型参数量:7B、13B、70B等不同规模的模型显存需求差异巨大 * 微调方法:全参数微调、LoRA、QLoRA等方法对显存的要求各不相同 * 训练配置:batch size、序列长度等参数会显著影响显存占用 传统做法是凭经验猜测,然后不断尝试调整,这不仅效率低下,还经常导致OOM(内存溢出)错误。Llama Factory微调显存计算器正是为解决这一痛点而生。 计算器核心功能解析 这个显存计算器集成在LLaMA-Factory框架中,主要

StructBERT-Large实战教程:单句对多句批量检索模式扩展开发指南

StructBERT-Large实战教程:单句对多句批量检索模式扩展开发指南 1. 项目概述与核心价值 如果你正在处理中文文本的语义匹配任务,比如从大量文档中快速找到相关内容,或者需要判断两个句子的相似程度,那么StructBERT-Large将是你的得力助手。 这个工具基于阿里达摩院开源的StructBERT大规模预训练模型,专门针对中文语义理解进行了优化。与传统的文本匹配方法不同,它能够深入理解句子的语法结构和语义内涵,将中文句子转化为高质量的数值向量(Embedding),然后通过数学计算精确量化两个句子之间的相似程度。 核心能力亮点: * 深度理解中文语法和语义结构 * 将文本转换为可计算的数值向量 * 快速准确计算句子相似度 * 支持扩展到批量文本处理场景 2. 环境准备与快速部署 2.1 系统要求与依赖安装 在开始之前,确保你的系统满足以下要求: * Python 3.8或更高版本 * NVIDIA显卡(推荐RTX 4090或同级别显卡) * 至少8GB系统内存 * 足够的显卡显存(模型加载需要约1.5-2GB) 安装必要的依赖库: