跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
PythonSaaSAI算法

开源版 Coze 知识库(RAG)创建与使用指南

介绍开源版 Coze Studio 知识库(RAG)功能的完整操作流程。内容涵盖环境准备、文档上传、智能体绑定及效果测试。系统支持 txt、pdf、docx 格式,采用 BGE 模型进行向量化并存储于 Elasticsearch。文中包含常见问题排查方案及最佳实践建议,适用于构建企业私有知识问答机器人。

Elasticer发布于 2026/3/26更新于 2026/5/3135 浏览
开源版 Coze 知识库(RAG)创建与使用指南

Coze 创建知识库(RAG)完整操作指南

——基于开源版 Coze Studio v1.2.0 的真实能力

验证日期:2026 年 2 月 3 日
环境:本地部署的开源版 Coze Studio(GitHub 官方仓库)
目标:通过上传企业文档,构建一个支持私有知识问答的 AI 智能体

[此处为界面截图]

一、Coze 知识库(RAG)能力说明(经验证)

根据 Coze 官方文档和源码分析,开源版 Coze 的 RAG 功能具备以下特性:

能力是否支持说明
文档上传✅支持 .txt、.pdf、.docx 格式
自动文本提取✅PDF/Word 内容可解析为纯文本
向量化存储✅使用 BGE 嵌入模型(BAAI/bge-small-zh-v1.5)
相似性检索✅基于 Elasticsearch 实现
与 Bot 绑定✅可在智能体中启用知识库
多知识库管理✅支持创建多个知识库并分配给不同 Bot
分段策略⚠️ 固定分块默认按 512 字符分段,不可配置(截至 v1.2.0)

❌ 不支持功能:图像/PPT/Excel 内容提取手动调整 chunk size 或 overlap 元数据过滤(如按部门、时间筛选)实时同步外部数据库

[此处为界面截图]

二、前提条件

  1. 已成功部署开源版 Coze Studio
    (参考《开源版 Coze 入门指导手册》)
  2. Elasticsearch 正常运行
    (由 docker-compose 自动启动,端口 9200)
  3. 准备待上传的文档
    • 推荐格式:.txt(最稳定)、.pdf(文字型,非扫描件)、.docx
    • 单文件 ≤ 50 MB(硬限制,见配置文件说明)

三、操作步骤

步骤 1:登录 Coze Web 界面

访问 http://localhost:8888,使用默认账号登录:

  • 用户名:admin
  • 密码:Coze123456!
步骤 2:创建知识库
  1. 左侧菜单点击 '知识库'
  2. 点击 '+ 新建知识库'
  • 填写信息:
    • 名称:例如 'ERP 用户手册'
    • 描述(可选):包含 ERP 系统操作指南的文档集合
  • 点击 '确定'
  • 💡 提示:此时知识库为空,需上传文件。

    步骤 3:上传文档
    1. 在知识库详情页,点击 '上传文件'
    2. 选择本地文件(支持多选)
      • 示例文件:erp_manual_v3.pdf
    3. 点击 '开始上传'

    ⏱️ 处理时间:10 页 PDF ≈ 10–30 秒系统会自动:提取文本按 512 字符分段调用 BGE 模型生成向量存入 Elasticsearch

    1. 上传完成后,页面显示文件列表和状态('已处理')

    ✅ 验证:可点击文件名预览提取后的纯文本内容。

    步骤 4:将知识库绑定到智能体(Bot)
    1. 进入 'Bot 列表',编辑或新建一个 Bot
    2. 在 Bot 编辑页,切换到 '知识库' 标签
    3. 勾选刚创建的 'ERP 用户手册'
    4. (可选)在 '人设与回复逻辑' 中强化提示词:
    你是一个 ERP 系统专家。请优先依据'ERP 用户手册'中的内容回答问题。如果知识库中没有相关信息,请明确告知'未在文档中找到相关内容',不要编造答案。
    
    1. 点击 '发布'

    四、测试 RAG 效果

    在 Bot 聊天窗口提问:

    如何在 ERP 系统中创建采购订单?
    

    预期行为:

    • Coze 会自动从知识库中检索相关段落
    • 将检索结果作为上下文注入 LLM 提示词
    • 生成基于文档的答案

    🔍 调试技巧:
    若回答不准确,可检查:文档是否包含关键词'采购订单'PDF 是否为可复制文字(非图片扫描)问题表述是否与文档措辞接近(中文语义匹配依赖 BGE 模型效果)

    五、技术原理简析(基于源码)

    1. 文本分段
      • 位置:backend/chunking/
      • 策略:固定长度 512 字符,无重叠
      • 无配置接口(硬编码)
    2. 嵌入模型
      • 模型:BAAI/bge-small-zh-v1.5(中文优化)
      • 加载方式:首次使用时自动从 Hugging Face 下载(需联网)
      • 存储路径:Docker 卷 coze-models
    3. 向量存储
      • 引擎:Elasticsearch 8.x
      • 索引名:kb_{knowledge_base_id}
      • 字段:content(原文)、embedding(向量)

    📌 注意:若首次启动时网络受限,BGE 模型下载失败会导致知识库无法使用。

    六、常见问题与解决

    Q1:上传 PDF 后内容为空?

    原因:PDF 是扫描图像,无内嵌文字。
    解决:使用 OCR 工具(如 Adobe Acrobat)转为可搜索 PDF,或先转为 .txt。

    Q2:知识库检索不到相关内容?

    排查步骤:点击文件预览,确认文本提取成功尝试更精确的关键词(如文档中的原句)检查 Elasticsearch 是否运行:curl http://localhost:9200

    Q3:能否更新或删除文档?

    ✅ 支持:删除:在知识库文件列表点击'删除'更新:先删除旧文件,再上传新版本⚠️ 更新后需等待几秒重建索引。

    Q4:知识库数据存储在哪里?

    原始文件:docker/volumes/minio/data/...向量索引:Elasticsearch 容器内(持久化卷 es-data)

    七、最佳实践建议

    1. 文档预处理
      • 将大文档拆分为小章节(如每章一个 PDF),提升检索精度
      • 避免使用表格密集型文档(Coze 当前不保留表格结构)
    2. 定期维护
      • 文档更新后及时替换
      • 避免上传无关内容(会增加噪声)

    提示词优化
    明确指示 Bot 依赖知识库,例如:

    '请严格根据提供的《ERP 用户手册》回答,不要推测。'

    [此处为界面截图]

    八、总结

    开源版 Coze 的知识库(RAG)功能虽处于早期阶段,但已能满足基础的企业私有知识问答需求。其优势在于:

    • 开箱即用:无需编写代码
    • 中文优化:BGE 模型对中文语义理解较好
    • 全栈本地化:数据不出内网

    适用于:

    • 产品手册问答机器人
    • 内部制度查询助手
    • 技术文档智能检索

    🔜 未来期待:可配置分块策略、支持更多格式、元数据过滤等高级功能。

    附:官方资源

    • 知识库文档:https://docs.coze.cn/opensource/knowledge-base
    • GitHub 源码(chunking 模块):https://github.com/coze-dev/coze-studio/tree/main/backend/chunking
    • BGE 模型介绍:https://huggingface.co/BAAI/bge-small-zh-v1.5

    目录

    1. Coze 创建知识库(RAG)完整操作指南
    2. 一、Coze 知识库(RAG)能力说明(经验证)
    3. 二、前提条件
    4. 三、操作步骤
    5. 步骤 1:登录 Coze Web 界面
    6. 步骤 2:创建知识库
    7. 步骤 3:上传文档
    8. 步骤 4:将知识库绑定到智能体(Bot)
    9. 四、测试 RAG 效果
    10. 五、技术原理简析(基于源码)
    11. 六、常见问题与解决
    12. Q1:上传 PDF 后内容为空?
    13. Q2:知识库检索不到相关内容?
    14. Q3:能否更新或删除文档?
    15. Q4:知识库数据存储在哪里?
    16. 七、最佳实践建议
    17. 八、总结
    • 💰 8折买阿里云服务器限时8折了解详情
    • Magick API 一键接入全球大模型注册送1000万token查看
    • 🤖 一键搭建Deepseek满血版了解详情
    • 一键打造专属AI 智能体了解详情
    极客日志微信公众号二维码

    微信扫一扫,关注极客日志

    微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

    更多推荐文章

    查看全部
    • 前端状态管理:Recoil 原子化实践
    • Git 原理与实战:深入解析核心架构与常用命令
    • LangChain 实战指南:9 个典型应用场景
    • AIGC 在现代教育技术中的应用与实践
    • AI 安全研究:视觉提示词注入与模型鲁棒性分析
    • AI 小说生成器:基于大语言模型的长篇小说创作工具
    • Java 8 基础核心知识梳理:从运算符到面向对象
    • GitHub Codespaces 开发环境搭建与使用
    • 基于 FastAPI 自动构建 SSE MCP 服务器
    • noteDigger 纯前端音频扒谱工具技术解析
    • Stable Diffusion 入门指南:模型与 UI 基础解析
    • QTTabBar 为 Windows 资源管理器添加标签页功能
    • Meta AI 前首席科学家 LeCun 承认 Llama 4 基准测试存在操纵
    • 算法专题:模拟法经典题目解析
    • C/C++ 中 extern 关键字详解:函数与变量修饰
    • LLaMA 大模型开源论文阅读笔记
    • 深入解析 VR 与 AR:从技术原理到未来图景
    • 基于 Llama-Factory 的盘古大模型轻量化训练方案
    • Windows 11 Docker Desktop 安装与配置指南
    • AI 安全:Stable Diffusion 视觉提示词注入攻击原理与实现

    相关免费在线工具

    • 加密/解密文本

      使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

    • RSA密钥对生成器

      生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

    • Mermaid 预览与可视化编辑

      基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

    • 随机西班牙地址生成器

      随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

    • Gemini 图片去水印

      基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

    • curl 转代码

      解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online