基于 OpenClaw 构建企业知识库 RAG 问答系统 | 极客日志

PythonAI算法

基于 OpenClaw 构建企业知识库 RAG 问答系统

如何使用 OpenClaw 开源 AI 助手结合 RAG 技术构建企业级知识库问答系统。通过部署本地 Qdrant 向量数据库，利用 BGE 模型进行文档向量化与重排序，编写 Python 脚本实现检索逻辑，并将其封装为 OpenClaw Skill。方案支持在 Telegram 等聊天软件中直接查询内部文档，确保数据隐私安全，避免大模型幻觉问题，适合企业私有化部署场景。

城市逃兵发布于 2026/4/6更新于 2026/5/2232 浏览

阅读时间：约 20 分钟难度：中级 · 有一定 Python 基础即可上手

一、先聊聊 OpenClaw 到底是什么

如果你还没用过 OpenClaw，先花 60 秒理解它——因为它跟大多数人印象中的"AI 应用"完全不是同一种东西。

OpenClaw 是一个跑在你自己电脑上的开源个人 AI 助手。

不是云端 SaaS，不是聊天网页，不是某家大厂的 App。它就安装在你的 Mac / Windows / Linux 上，然后你可以通过 WhatsApp、Telegram、Discord、iMessage 等任何你已经在用的聊天软件来跟它对话。

一行命令，装完就能用：

curl -fsSL https://openclaw.ai/install.sh | bash openclaw onboard

它能做什么？

用社区里流传最广的一句描述来说：

"A smart model with eyes and hands at a desk with keyboard and mouse. You message it like a coworker and it does everything a person could do with that Mac mini."

不是夸张。OpenClaw 默认就具备：

持久记忆：它记得你，每次对话都在积累上下文
浏览器控制：它能打开网页、填表单、抓数据
完整系统权限：读写文件、执行 Shell 命令、运行脚本
多模型后端：Claude、GPT-4o、本地 Ollama，随意切换
Skills 扩展体系：像装插件一样给它"教技能"

最后这一点，就是我们今天要深挖的核心。

Skills 是什么？

Skills 是 OpenClaw 的灵魂扩展机制。本质上是一个文件夹，里面有一个 SKILL.md，用 YAML frontmatter + Markdown 写清楚"这个技能是干嘛的、怎么用"，OpenClaw 读完之后就会在系统提示词里注入这个能力。

~/.openclaw/skills/ my-rag-skill/ SKILL.md ← 技能描述 + 调用说明 search.py ← 实际执行的检索脚本 requirements.txt

社区有个公开的技能市场 ClawHub，装现成技能就像 pip install 一样简单。但今天我们要自己写一个——一个让 OpenClaw 能在你企业知识库里检索答案的 RAG Skill。

二、为什么是 RAG？企业知识库的真实痛点

在进入代码之前，我们必须先把问题说清楚。

大模型不知道你的内部知识

不管是 Claude、GPT-4o 还是 Qwen，它们的训练数据都是公开的互联网内容，截止日期固定。你公司的：

内部产品手册、操作规范
历史工单、客服记录
合规文件、法律条款
技术文档、API 说明

…这些，模型一无所知。如果你直接问它，它会结合通用知识"编"一个听起来合理但完全不准确的答案。这就是大名鼎鼎的**幻觉（Hallucination）**问题。

为什么不微调？

微调是一个选项，但对企业知识库场景来说代价太高：

维度	微调

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

你在 Telegram 问 OpenClaw： "新员工入职流程第三步是什么？" │ ▼ OpenClaw 触发 RAG Skill │ ▼ 把问题向量化 → 去本地 Qdrant 向量库检索 │ ▼ 找到最相关的 3 段文档片段 │ ▼ 把原始问题 + 文档片段一起发给 Claude │ ▼ Claude 基于真实文档生成答案 │ ▼ OpenClaw 把答案 + 来源引用发回你的 Telegram

组件	选型	理由
AI 助手	OpenClaw	本文主角，开源、本地部署、Skills 扩展
向量数据库	Qdrant	Rust 编写，性能卓越，Docker 一键启动
Embedding 模型	BAAI/bge-large-zh-v1.5	中文语义最强开源模型，C-MTEB 长期领先
Reranker	BAAI/bge-reranker-large	Cross-Encoder 精排，提升检索精度
运行环境	Python 3.11 + uv	快速依赖管理，OpenClaw Skills 推荐

docker run -d\
--name qdrant \
-p6333:6333 \
-v$(pwd)/qdrant_data:/qdrant/storage \
 qdrant/qdrant

pip install qdrant-client sentence-transformers \
 langchain-text-splitters pymupdf \
 python-docx rich --break-system-packages

# ingest.py —— 知识库构建脚本
import uuid
import sys
from pathlib import Path
from qdrant_client import QdrantClient
from qdrant_client.models import Distance, VectorParams, PointStruct
from sentence_transformers import SentenceTransformer
from langchain_text_splitters import RecursiveCharacterTextSplitter
import fitz # PyMuPDF
from rich.console import Console
from rich.progress import track

console = Console()
COLLECTION = "enterprise_kb"
EMBED_MODEL = "BAAI/bge-large-zh-v1.5"
VECTOR_SIZE = 1024
CHUNK_SIZE = 512
CHUNK_OVERLAP = 64

def load_pdf(path: str) -> str:
    doc = fitz.open(path)
    return "\n".join(page.get_text() for page in doc)

def load_text(path: str) -> str:
    return Path(path).read_text(encoding="utf-8")

def main(docs_dir: str):
    client = QdrantClient(url="http://localhost:6333")
    embedder = SentenceTransformer(EMBED_MODEL)
    splitter = RecursiveCharacterTextSplitter(
        chunk_size=CHUNK_SIZE,
        chunk_overlap=CHUNK_OVERLAP,
        separators=["\n\n", "\n", "。", "！", "？", " "],
    )
    # 创建向量集合（如果不存在）
    existing = {c.name for c in client.get_collections().collections}
    if COLLECTION not in existing:
        client.create_collection(
            COLLECTION, vectors_config=VectorParams(size=VECTOR_SIZE, distance=Distance.COSINE),
        )
    console.print(f"[green]✓ 创建集合：{COLLECTION}[/green]")
    # 扫描文档目录
    supported = {".pdf", ".txt", ".md"}
    files = [f for f in Path(docs_dir).rglob("*") if f.suffix.lower() in supported]
    console.print(f"[blue]发现 {len(files)} 个文档文件[/blue]")
    total_chunks = 0
    for file in track(files, description="处理文档中..."):
        try:
            raw = load_pdf(str(file)) if file.suffix == ".pdf" else load_text(str(file))
            chunks = splitter.split_text(raw)
            points = []
            for i, chunk in enumerate(chunks):
                # bge 模型建议加指令前缀
                vec = embedder.encode(f"为这个句子生成表示以用于检索相关文章：{chunk}", normalize_embeddings=True).tolist()
                points.append(PointStruct(id=str(uuid.uuid4()), vector=vec, payload={"text": chunk, "source": file.name, "chunk_id": i},))
            client.upsert(COLLECTION, points=points)
            total_chunks += len(points)
        except Exception as e:
            console.print(f"[yellow]⚠ 跳过 {file.name}: {e}[/yellow]")
    console.print(f"\n[bold green]✓ 入库完成！共处理 {len(files)} 个文件，{total_chunks} 个片段[/bold green]")

if __name__ == "__main__":
    docs_dir = sys.argv[1] if len(sys.argv) > 1 else "./docs"
    main(docs_dir)

python ingest.py ./docs

# search.py —— RAG 检索脚本（供 OpenClaw Skill 调用）
import sys
import json
from qdrant_client import QdrantClient
from sentence_transformers import SentenceTransformer, CrossEncoder

COLLECTION = "enterprise_kb"
EMBED_MODEL = "BAAI/bge-large-zh-v1.5"
RERANK_MODEL = "BAAI/bge-reranker-large"

client = QdrantClient(url="http://localhost:6333")
embedder = SentenceTransformer(EMBED_MODEL)
reranker = CrossEncoder(RERANK_MODEL)

def search(query: str, top_k_recall: int = 8, top_k_final: int = 3) -> list[dict]:
    """两阶段检索：向量召回 → Rerank 精排"""
    # 阶段一：向量检索（召回候选集）
    query_vec = embedder.encode(f"为这个句子生成表示以用于检索相关文章：{query}", normalize_embeddings=True).tolist()
    results = client.search(
        collection_name=COLLECTION,
        query_vector=query_vec,
        limit=top_k_recall,
        score_threshold=0.4, # 过滤掉明显不相关的结果
    )
    if not results:
        return []
    # 阶段二：Rerank 精排（Cross-Encoder，准确率更高）
    docs = [r.payload["text"] for r in results]
    sources = [r.payload.get("source", "未知") for r in results]
    pairs = [(query, doc) for doc in docs]
    scores = reranker.predict(pairs)
    ranked = sorted(zip(scores, docs, sources), key=lambda x: x[0], reverse=True)
    return [{"text": doc, "source": src, "score": round(float(score), 4)} for score, doc, src in ranked[:top_k_final]]

def format_output(query: str, docs: list[dict]) -> str:
    """格式化为易读的文本，供 OpenClaw 拼入 Prompt"""
    if not docs:
        return f"在知识库中未找到与「{query}」相关的内容。"
    parts = [f"以下是从企业知识库中检索到的相关内容，请基于这些内容回答问题：\n"]
    for i, doc in enumerate(docs, 1):
        parts.append(f"【参考资料 {i}】（来源：{doc['source']}）\n{doc['text']}\n")
    sources = list({d["source"] for d in docs})
    parts.append(f"\n---\n📎 引用来源：{' | '.join(sources)}")
    return "\n".join(parts)

if __name__ == "__main__":
    query = " ".join(sys.argv[1:]) if len(sys.argv) > 1 else ""
    if not query:
        print(json.dumps({"error": "请提供查询词"}, ensure_ascii=False))
        sys.exit(1)
    docs = search(query)
    print(format_output(query, docs))

python search.py "新员工入职需要准备哪些材料"

mkdir -p ~/.openclaw/skills/enterprise-kb

---
name: enterprise-kb
description: 在企业内部知识库中检索信息。当用户询问公司内部政策、产品手册、操作规范、历史工单、合规文件等内部知识时，必须调用此技能获取准确信息，禁止凭空作答。
metadata: {"openclaw":{"emoji":"📚","requires":{"bins":["python3"],"env":[]}}}
---
# Enterprise Knowledge Base Search

## 使用场景
每当用户提问涉及以下类型内容时，你必须通过此技能检索，不得直接回答：
- 公司内部政策、人事制度、行政规定
- 产品操作手册、技术规范、API 文档
- 历史工单、解决方案、经验总结
- 法律合规文件、合同模板
- 任何你不确定是否有内部文档的专业问题

## 调用方式
使用 bash 工具执行以下命令：
```bash
python3 {baseDir}/search.py <用户的完整问题>


#### 6.3 复制脚本文件

```bash
cp search.py ~/.openclaw/skills/enterprise-kb/
cp requirements.txt ~/.openclaw/skills/enterprise-kb/
# 安装依赖
cd ~/.openclaw/skills/enterprise-kb
pip install -r requirements.txt

## 查询优化（在调用搜索前）
如果用户的问题较短或含有缩写，先在心里将其扩展为完整的检索词。
例如："报销流程" → "员工费用报销申请审批流程及所需材料"

## 多轮对话处理
如果当前问题是一个代词性追问（如"那...呢"、"它的...是什么"），
请先根据对话历史补全问题的完整含义，再调用检索。
如上例应改写为"病假天数规定是什么"再进行检索。

# 入库时增加 metadata
payload = {
    "text": chunk,
    "source": file.name,
    "department": "HR", # ← 增加部门标签
    "year": 2024,
}
# 检索时过滤
from qdrant_client.models import Filter, FieldCondition, MatchValue
results = client.search(
    collection_name=COLLECTION,
    query_vector=query_vec,
    query_filter=Filter(
        must=[FieldCondition(key="department", match=MatchValue(value="HR"))],
    ),
    limit=top_k_recall,
)

import hashlib
def file_hash(path: str) -> str:
    return hashlib.md5(Path(path).read_bytes()).hexdigest()
# 对比 hash，只处理有变化的文件
# 删旧 points（按 source 过滤删除），插新 points

# 在 openclaw.json 里配置
{
    "heartbeat": {
        "enabled": true,
        "cronExpression": "0 9 * * 1-5",
        "message": "早上好！企业知识库今日状态：运行正常，共索引 XX 篇文档。有什么我能帮你查的吗？"
    }
}

# 用 Ollama 跑本地模型
ollama pull qwen2.5:32b
# 在 openclaw.json 里切换
{
    "model": {
        "provider": "ollama",
        "name": "qwen2.5:32b"
    }
}

enterprise-kb-skill/
│ ├── SKILL.md # OpenClaw Skill 描述（必须）
│ ├── search.py # RAG 检索主脚本
│ ├── ingest.py # 知识库构建脚本（一次性使用）
│ ├── requirements.txt # Python 依赖
│ └── docs/ # 你的企业文档放这里
│     ├── 员工手册_v2024.pdf
│     ├── 产品 API 文档_v3.md
│     ├── 合规指引_2024Q4.docx
│     └── ...

# 1. 启动向量数据库
docker run -d -p6333:6333 -v ./data:/qdrant/storage qdrant/qdrant
# 2. 文档入库
python ingest.py ./docs
# 3. 安装 Skill 并重启 OpenClaw
cp -r enterprise-kb-skill ~/.openclaw/skills/enterprise-kb
openclaw restart # 或者开启新会话

知识更新	重新训练，周期以天计	更新向量库，分钟级生效
成本	GPU 算力 + 人力标注	只需向量化成本，几乎可忽略
可溯源性	模型黑盒，无法知道答案从哪来	每个答案都能追溯到原始文档片段
数据安全	数据进入训练过程	数据只存在本地向量库，不出内网

基于 OpenClaw 构建企业知识库 RAG 问答系统

一、先聊聊 OpenClaw 到底是什么

它能做什么？

Skills 是什么？

二、为什么是 RAG？企业知识库的真实痛点

大模型不知道你的内部知识

为什么不微调？

更多推荐文章

相关免费在线工具

三、技术选型

四、第一步：搭建向量知识库

4.1 启动 Qdrant

4.2 安装依赖

4.3 文档入库脚本

五、第二步：编写 RAG 检索脚本

六、第三步：编写 OpenClaw Skill

6.1 创建 Skill 文件夹

6.2 编写 SKILL.md

结果处理规则

示例

6.4 验证 Skill 加载

七、实际体验：在 Telegram 里问公司文档

八、进阶优化：让检索更聪明

8.1 查询改写：理解用户真实意图

8.2 多轮对话的 Query 改写

8.3 元数据过滤：检索范围精细化

8.4 定期增量更新

8.5 设置心跳提醒（Heartbeat）

九、安全与隐私：这套方案为什么适合企业

十、完整项目结构回顾

十一、总结与思考

更多推荐文章

相关免费在线工具

基于 OpenClaw 构建企业知识库 RAG 问答系统

一、先聊聊 OpenClaw 到底是什么

它能做什么？

Skills 是什么？

二、为什么是 RAG？企业知识库的真实痛点

大模型不知道你的内部知识

为什么不微调？

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

三、技术选型

四、第一步：搭建向量知识库

4.1 启动 Qdrant

4.2 安装依赖

4.3 文档入库脚本

五、第二步：编写 RAG 检索脚本

六、第三步：编写 OpenClaw Skill

6.1 创建 Skill 文件夹

6.2 编写 SKILL.md

结果处理规则

示例

6.4 验证 Skill 加载

七、实际体验：在 Telegram 里问公司文档

八、进阶优化：让检索更聪明

8.1 查询改写：理解用户真实意图

8.2 多轮对话的 Query 改写

8.3 元数据过滤：检索范围精细化

8.4 定期增量更新

8.5 设置心跳提醒（Heartbeat）

九、安全与隐私：这套方案为什么适合企业

十、完整项目结构回顾

十一、总结与思考

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具