RAG 落地与知识管理：构建新的知识运营体系

RAG（大模型 + 知识库）落地与知识管理的春天

引言

大模型时代已经到来。众所周知，GPT 等大模型是基于海量知识训练出来的，但你是否思考过，什么样的知识才能有效训练大模型？站在企业的角度，许多企业拥有自己的知识库或文档中心，积累了数年的资料。是否只要用上大模型，就能轻松实现基于自有知识库的智能搜索、智能问答和智能推荐？答案并非如此简单。

传统的搜索、问答、推荐场景通常返回一整篇文档，用户仍需从中寻找特定内容。而 ChatGPT、文心一言等产品的体验表明，大模型直接针对问题回复精准答案。典型的 RAG（检索增强生成）技术，先将文档切片，把大篇幅文档切割成更小的片段，再送给大模型处理。因此，在大模型时代，更容易被 AI 利用的知识形态需要重新定义。

一、知识基础形态和知识质量

1. 基础知识单元设计

结合日常实践，我们认为 AI 友好的基础知识单元很可能是：一个主题（问题）+ 一个内容段落 + N 个索引标签。

例如，关于 RAG 的定义：

主题（问题）：RAG 的定义（RAG 是什么、RAG 是什么意思）
内容段落：RAG，英文 Retrieval-Augmented Generation 的缩写，中文是'搜索增强生成'，是指大模型基于外挂知识库里的知识生成内容。这种方式对于大模型来说可以有效减少幻觉，对于知识库来说可以提高知识的利用率。
索引标签：#大模型 #知识库 #AI #基础知识

将这种标准化、结构化的知识单元存储起来，当用户问到类似问题时直接调用，能显著提升搜索、问答和推荐的效果。

2. 对知识单元的三种理解角度

QA 对（问答对）：一个问题加上一个内容段落。这是 AI 时代最基础的知识单元。小模型机器人通常搭配 QA 知识库，大模型微调（fine-tune）也使用精选 QA 作为案例来校准模型回复。
主题提炼：给段落加上主题，便于阅读时提取关键信息。在 RAG 实践中，从内容段落中预先提炼主题，应用时能更方便检索。
索引标签：标签用于区分知识的使用场景。例如，"RAG"可能指大模型领域的检索增强生成，也可能指生物领域的重组激活基因。通过标签可以准确返回结果或反问用户澄清意图。标签大致有四类：企业官方定义、作者自定义、业务场景关键词、大模型自动提取。

3. 知识质量与 AI 友好度

如果知识一开始就是 QAT（Question-Authority-Tag）或 AT（Authority-Tag）形式，AI 利用效率最高。但企业存量知识多为文档级。版式复杂、多种格式嵌套的文档是大模型难以直接消化的。目前的 RAG 实践通常需要知识预加工过程。

高质量、AI-friendly 的知识应遵循以下原则：

易于切割：版式容易切割成 chunk，段落之间有清晰界限。
MECE 原则：内容段落符合相互独立、完全穷尽的原则。
言之有物：段落紧扣主题，表述准确。
格式简洁：段落内的文、图、表格式简洁、互相呼应。

若人阅读起来难受、理解费劲的文档，AI 消化起来表现也不会太好。大模型可以依据基础内容改写成优美的语言风格，因此不必过分追求辞藻，而应注重信息的准确性和结构化。

二、知识运营和知识管理体系

1. 知识运营关键环节

好的、高质量的、AI 友好度高的知识不会天然出现，需通过精细运营逐步积累。对存量和增量知识需采取不同策略。

知识生产：制定文档制作标准和范例，引导员工按标准模板生产 Word、Excel、PPT 等文档。最好将标准固化到知识库系统中。
知识采集：通过系统对接和人工上传汇聚知识。散落在各部门的已有文档需采集过来，此阶段需给原始文档打上预先规划好的标签。
知识加工：从原始文档中抽取基本知识单元。目前大模型及 OCR 工具抽取不够准确，需人工制定抽取规则，或先机器抽取后人工标注修正。
知识应用：在搜索/问答/推荐等场景落地。需围绕业务目标和实际应用场景进行创作/采集/加工。除监控使用人数、准确率外，还需获取用户点赞、点踩反馈数据。

RAG 落地与知识管理：构建新的知识运营体系

RAG（大模型 + 知识库）落地与知识管理的春天

引言

一、知识基础形态和知识质量

1. 基础知识单元设计

2. 对知识单元的三种理解角度

3. 知识质量与 AI 友好度

二、知识运营和知识管理体系

1. 知识运营关键环节

更多推荐文章

相关免费在线工具

2. 新的知识管理体系

三、RAG 技术落地深度解析

1. 检索策略优化

2. 分块（Chunking）策略

3. 代码示例：LangChain 基础 RAG 流程

4. 效果评估指标

结语

更多推荐文章

相关免费在线工具

RAG 落地与知识管理：构建新的知识运营体系

RAG（大模型 + 知识库）落地与知识管理的春天

引言

一、知识基础形态和知识质量

1. 基础知识单元设计

2. 对知识单元的三种理解角度

3. 知识质量与 AI 友好度

二、知识运营和知识管理体系

1. 知识运营关键环节

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2. 新的知识管理体系

三、RAG 技术落地深度解析

1. 检索策略优化

2. 分块（Chunking）策略

3. 代码示例：LangChain 基础 RAG 流程

4. 效果评估指标

结语

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具