大模型时代企业转型:RAG 技术的演进与实践挑战
本文探讨了大模型时代企业如何利用 RAG 技术实现垂直领域知识融合。文章对比了 Fine-Tuning 与 RAG 两种路径,重点分析了 RAG 框架在 Query 准确率上的痛点,并从知识预处理、用户提问优化、查询召回策略三个维度提出了具体的改进实践。包括文档规范化、智能摘要、问题澄清与衍生、混合检索及重排模型等技术手段。最后总结了 RAG 落地的关键原则与未来多模态及 Agent 化的发展趋势,为企业构建高效智能问答系统提供指导。

本文探讨了大模型时代企业如何利用 RAG 技术实现垂直领域知识融合。文章对比了 Fine-Tuning 与 RAG 两种路径,重点分析了 RAG 框架在 Query 准确率上的痛点,并从知识预处理、用户提问优化、查询召回策略三个维度提出了具体的改进实践。包括文档规范化、智能摘要、问题澄清与衍生、混合检索及重排模型等技术手段。最后总结了 RAG 落地的关键原则与未来多模态及 Agent 化的发展趋势,为企业构建高效智能问答系统提供指导。

从 2023 年起,大语言模型(Large Language Model, LLM)如 GPT、Gemini、通义千问等迅速爆发。经过一年多的迭代,这些模型在通用知识和常识理解上已相当成熟。与此同时,传统行业的企业纷纷探索将 AI 技术引入业务,寻求实质性变革。与通用大模型厂商比拼基础能力不同,企业更关注如何将大模型的通用能力与自身垂直领域的私有知识相结合,以满足特定业务场景的需求。
大语言模型与企业垂直领域知识的融合,目前主流有两个方向:
将私域知识标注为训练数据,直接对大模型进行增量训练。这种方式能提升模型自身的知识储备和认知能力,是大模型厂商持续提升模型能力的核心方式之一。但微调成本高,且容易遗忘原有通用能力,适合数据量极大且稳定的场景。
通过在大模型外部构建一套检索体系,解决企业私域知识的提炼和召回问题,并通过 Prompt 让大模型在企业私域知识的背景下返回结果。RAG 降低了企业对大模型应用的技术门槛,无需重新训练模型即可利用最新知识,是目前非 AI 专业企业的首选方案。
![图:RAG 基础框架示意图]
与 Fine-Tuning 不同,RAG 框架的优势在于构建了 Query(查询)和 Generate(生成)的分工机制。在不改变大语言模型生成能力的基础上,实现与企业私域知识的融合。尽管当下大模型的输入上下文窗口已突破百万 tokens,但难以一次性覆盖企业全部私域知识量;且如果用户每次问询都伴随巨量 tokens 的提示词,也是一种性价比极低的方法。因此,在当前算力背景下,RAG 在大模型应用场景中依然有举足轻重的地位。
然而,企业在实践大模型 + RAG 框架时,常发现效果不尽人意。尽管大模型的推理和生成能力日渐成熟,但受限于 RAG 框架下文本片段 + 向量召回机制中的 Query 准确率问题,往往制约了大模型本身能力的发挥。如何更好地协同 RAG 框架下的 Query 和 Generate 能力,一直是大模型应用的探索方向之一。
为了解决 RAG 面临的痛点,我们可以把 RAG 的 Query 体系归纳为三大环节:知识预处理、用户提问和查询召回。在每个环节下,一步步探索改善 Query 问题的具体实践。
![图:RAG 优化流程示意图]
RAG 从企业各种类型的文件中提取知识内容,这些内容被切割为知识块(Chunk),作为检索的最小单元。知识块内容质量的好坏,直接影响到后续检索和生成回复的准确率。
企业可以从文档编写和积累源头,对内容加以规范,从而使其被 RAG 更准确地提取和切割。
对于更新频率低的文档,可以利用大模型 Generate 能力对文档内容进行智能化加工。
用户提问的内容和方法,也是影响 RAG 准确率的重要因素。对此,可以增加更多显性和隐性的互动环节来改善。
受到传统文本召回搜索引擎的影响,很多用户习惯于用一个词汇或短语进行提问,这种行为会带来更多的匹配不确定性。借助大模型可以快速构建多种澄清场景,并对用户问题进行判断和追问后,归纳成高质量的完整问题进行信息检索。
大模型的 Generate 能力可以将用户的问题进行相关性衍生,这个环节对用户是隐性的。衍生的相关问题可以分别用于检索更多的知识片段,然后排序合并到大模型的 Prompt 里,确保生成回复的全面性。例如,用户问'销售额',系统可衍生'销售额趋势'、'销售额构成'等问题一并检索。
企业内部往往会同时存在多个领域的知识,这些知识在一起被检索时,往往可能会出现干扰。通过构建一个问题分类器,可以定义不同的分类指向不同的知识库。用户在提问时可以率先明确问题分类,也可以借助大模型能力对问题进行自动分类,结合分类路由实现避免不同领域相似知识的干扰。
该环节是将用户需求与知识储备进行匹配的桥梁,也是 RAG 框架里重要的一环,回归到 Query 的本质。自人类进入信息化社会以来,信息的查询和召回一直是一个持续的话题,我们可以引入优秀的策略和先进的技术来提升召回准确率。
作为 RAG 框架的首选,也是查询召回的基础能力,面对长文本的向量匹配,我们可以选择更高维度的向量模型来捕获和比较更多特征值,提升准确率。
| 模型 | 维度 |
|---|---|
| Bert 向量模型 | 768 |
| BGE 向量模型 | 1024 |
| GPT 向量模型 | 1536~3072 |
文本召回和向量召回是两种常见的应对海量数据的检索技术,各自具有独特的优缺点。为了提升检索效果,可以将这两者进行有效融合。
例如,可以先进行基于关键词的文本召回,然后在此基础上实施向量召回;或者同时进行文本匹配和向量匹配,最后通过综合评分模型进行结果排序和召回。这样的融合策略有助于提高检索的准确性和效率,特别是在处理专有名词或精确匹配需求时。
重排模型是一种在低算力、低成本的向量模型与高准确率、高成本的大语言模型之间的折中方案。它结合了向量模型的高效性和大语言模型的语义理解能力,旨在提供更优的检索效果,同时降低计算资源的需求。
重排模型如商业闭源的 Cohere Rerank 模型和开源 bge-reranker-large 模型等都是当下比较热门的重排模型。它们通常在初步召回 Top-K 个文档后,对这些文档进行精细化的语义重排序,显著提升最终返回给 LLM 的上下文质量。
结合对文档预处理的知识图谱构建,我们在查询召回环节可以引用图谱的能力。通过对问题的实体识别,进行关系推理和图谱查询;也可以与文本召回和向量召回相结合,形成一个混合召回策略,提升整体的搜索效果。这对于逻辑性强、关系复杂的企业内部知识尤为有效。
RAG 技术为企业利用大模型提供了低成本、高效率的路径。通过优化知识预处理、用户提问交互以及查询召回策略,企业可以显著提升 RAG 系统的回答准确率和用户体验。
未来,随着多模态大模型的发展,RAG 将进一步融合图像、语音等多模态数据的检索能力。同时,Agent(智能体)架构的引入,将使 RAG 系统具备更强的任务规划与执行能力,从被动问答转向主动服务。企业在落地 RAG 时,应注重数据治理的质量,建立持续优化的反馈机制,才能真正释放大模型在垂直领域的价值。
在实际工程落地中,建议遵循以下原则:
通过上述实践,企业能够构建出既懂通用知识又精通业务细节的智能助手,推动数字化转型的深入发展。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online