RAG(大模型 + 知识库)落地与知识管理的春天
引言
大模型时代已经到来。众所周知,GPT 等大模型是基于海量知识训练出来的,但你是否思考过,什么样的知识才能有效训练大模型?站在企业的角度,许多企业拥有自己的知识库或文档中心,积累了数年的资料。是否只要用上大模型,就能轻松实现基于自有知识库的智能搜索、智能问答和智能推荐?答案并非如此简单。
传统的搜索、问答、推荐场景通常返回一整篇文档,用户仍需从中寻找特定内容。而 ChatGPT、文心一言等产品的体验表明,大模型直接针对问题回复精准答案。典型的 RAG(检索增强生成)技术,先将文档切片,把大篇幅文档切割成更小的片段,再送给大模型处理。因此,在大模型时代,更容易被 AI 利用的知识形态需要重新定义。
一、知识基础形态和知识质量
1. 基础知识单元设计
结合日常实践,我们认为 AI 友好的基础知识单元很可能是:一个主题(问题)+ 一个内容段落 + N 个索引标签。
例如,关于 RAG 的定义:
- 主题(问题):RAG 的定义(RAG 是什么、RAG 是什么意思)
- 内容段落:RAG,英文 Retrieval-Augmented Generation 的缩写,中文是'搜索增强生成',是指大模型基于外挂知识库里的知识生成内容。这种方式对于大模型来说可以有效减少幻觉,对于知识库来说可以提高知识的利用率。
- 索引标签:#大模型 #知识库 #AI #基础知识
将这种标准化、结构化的知识单元存储起来,当用户问到类似问题时直接调用,能显著提升搜索、问答和推荐的效果。
2. 对知识单元的三种理解角度
- QA 对(问答对):一个问题加上一个内容段落。这是 AI 时代最基础的知识单元。小模型机器人通常搭配 QA 知识库,大模型微调(fine-tune)也使用精选 QA 作为案例来校准模型回复。
- 主题提炼:给段落加上主题,便于阅读时提取关键信息。在 RAG 实践中,从内容段落中预先提炼主题,应用时能更方便检索。
- 索引标签:标签用于区分知识的使用场景。例如,"RAG"可能指大模型领域的检索增强生成,也可能指生物领域的重组激活基因。通过标签可以准确返回结果或反问用户澄清意图。标签大致有四类:企业官方定义、作者自定义、业务场景关键词、大模型自动提取。
3. 知识质量与 AI 友好度
如果知识一开始就是 QAT(Question-Authority-Tag)或 AT(Authority-Tag)形式,AI 利用效率最高。但企业存量知识多为文档级。版式复杂、多种格式嵌套的文档是大模型难以直接消化的。目前的 RAG 实践通常需要知识预加工过程。
高质量、AI-friendly 的知识应遵循以下原则:
- 易于切割:版式容易切割成 chunk,段落之间有清晰界限。
- MECE 原则:内容段落符合相互独立、完全穷尽的原则。
- 言之有物:段落紧扣主题,表述准确。
- 格式简洁:段落内的文、图、表格式简洁、互相呼应。
若人阅读起来难受、理解费劲的文档,AI 消化起来表现也不会太好。大模型可以依据基础内容改写成优美的语言风格,因此不必过分追求辞藻,而应注重信息的准确性和结构化。
二、知识运营和知识管理体系
1. 知识运营关键环节
好的、高质量的、AI 友好度高的知识不会天然出现,需通过精细运营逐步积累。对存量和增量知识需采取不同策略。
- 知识生产:制定文档制作标准和范例,引导员工按标准模板生产 Word、Excel、PPT 等文档。最好将标准固化到知识库系统中。
- 知识采集:通过系统对接和人工上传汇聚知识。散落在各部门的已有文档需采集过来,此阶段需给原始文档打上预先规划好的标签。
- 知识加工:从原始文档中抽取基本知识单元。目前大模型及 OCR 工具抽取不够准确,需人工制定抽取规则,或先机器抽取后人工标注修正。
- 知识应用:在搜索/问答/推荐等场景落地。需围绕业务目标和实际应用场景进行创作/采集/加工。除监控使用人数、准确率外,还需获取用户点赞、点踩反馈数据。


