案例解析:从 RAG 到 Agent 的技术演进
本文探讨了检索增强生成(RAG)技术的局限性,并阐述了向智能体(Agent)架构演进的必要性。通过分析阿里千问团队的 Agent 案例,介绍了检索、分块阅读、逐步推理三个构建层级。实验表明,结合工具调用的 Agent 策略在长文档理解任务中优于单纯的大上下文模型和基础 RAG。未来 Agent 将在多步任务规划、外部工具集成及自我反思方面持续深化,成为连接人与机器的重要桥梁。

本文探讨了检索增强生成(RAG)技术的局限性,并阐述了向智能体(Agent)架构演进的必要性。通过分析阿里千问团队的 Agent 案例,介绍了检索、分块阅读、逐步推理三个构建层级。实验表明,结合工具调用的 Agent 策略在长文档理解任务中优于单纯的大上下文模型和基础 RAG。未来 Agent 将在多步任务规划、外部工具集成及自我反思方面持续深化,成为连接人与机器的重要桥梁。

随着大语言模型(LLM)如 ChatGPT、ChatGPT-4 等的发布,AI 技术彻底改变了人机交互的方式。越来越多的企业开始聚焦大模型技术的研发与应用,为日常生活带来极大便利。然而,大模型也面临着时效性、准确性等核心挑战。如何构建更高级的 LLM 应用?如何解决 LLM 面临的幻觉与知识滞后问题?这已成为 AI 领域的重要研究课题。
检索增强生成(RAG, Retrieval-Augmented Generation)技术应运而生,通过在自然语言处理中结合信息检索和文本生成,显著提升了机器理解和回应的准确性。但随着 RAG 的广泛应用,其局限性也逐渐显现。本文将深入探讨 RAG 的痛点,并分析向智能体(Agent)架构演进的必要性与实践路径。
RAG 技术在问答系统、智能助手、信息检索等任务中表现优异。通过建立庞大的知识库,利用信息检索查询相关文本片段,经过筛选、排序和加权后作为生成模型的输入,能有效提高答案准确性,减少虚假信息。
然而,Naive RAG(基础 RAG)最初是为简单问题和小型文档集设计的。例如:
针对此类问题,LLM 结合特定知识库能给出很好的答案。但在面对以下复杂场景时,RAG 往往失效:
当遇到复杂任务时,单纯的搜索系统无法提供令人满意的结果,需要引入更强的规划与执行能力。
常规的 RAG 应用通常仅通过结合自有知识库来增强大模型,局限于内容生成的范畴。若需要人工智能像高效员工一样,自主选取工具、与不同系统协作直至交付结果,则必须从 RAG 转向 Agent。
这种转变并非抛弃 RAG,而是在此基础上增加以下关键层次的功能:
Agent 不仅能适应复杂任务,还能在多变环境中灵活应对。它专注于实现特定任务,注重与现有系统集成。Agent 能够理解语言并在现实或数字系统中采取行动,执行检索、处理、访问数据、交互数据库等多步骤任务。
人类使用工具是显著特征,Agent 同样借助外部工具释放 LLM 潜能。例如,Agent 可调用图表生成工具创建在线图表,或使用天气查询工具获取实时数据。Agent 是真正释放 LLM 潜能的关键,标志着 LLM 应用从被动响应向主动执行的范式转移。
近日,阿里千问团队开发了一个结合 RAG 的 Agent,用于理解包含百万字词的文档。该方案仅使用 Qwen2 模型的 8k 上下文,效果却超越了传统 RAG 和长序列原生模型。
该 Agent 的构建包含三个复杂度级别,每一层都建立在前一层的基础上。
目标是找出与提取关键词最相关的块,主要分为三步:
{"信息": ["自行车是什么时候发明的"], "指令": ["回答时用 2000 字", "尽量详尽", "用英文回复"]}{"关键词_英文": ["bicycles", "invented", "when"], "关键词_中文": ["自行车", "发明", "时间"]}解决相关块与用户查询关键词重叠不足导致失效的问题。策略如下:
解决多跳推理问题。例如用户输入:"与第五交响曲创作于同一世纪的交通工具是什么?"。 模型需拆分为子问题:"第五交响曲是在哪个世纪创作的?" -> "自行车于 19 世纪发明"。 采用工具调用(函数调用)智能体或 ReAct 框架解决:
while (Lv3-智能体无法根据其记忆回答问题) {
Lv3-智能体提出一个新的子问题待解答。
Lv3-智能体向 Lv2-智能体提问这个子问题。
将 Lv2-智能体的回应添加到 Lv3-智能体的记忆中。
}
Lv3-智能体提供原始问题的最终答案。
为验证效果,采用三种模型进行比对:
实验结果显示,4k-智能体始终表现优于 32k-模型和 4k-RAG。它结合 RAG 并通过工具调用,实现了更高的效率和准确率。这表明 Agent 的优势在于其动态规划与执行能力,而非单纯依赖上下文窗口大小。
尽管 Agent 潜力巨大,但在落地过程中仍面临诸多挑战:
Agent 应用的开发必将遇到众多挑战,但这同样是一种机遇。每一种挑战都会触发新的技术融合。虽然李彦宏曾预言"以后不会存在程序员这种职业了",但笔者认为,Agent 虽然功能强大,路漫漫其修远兮,应用落地依然有很长的路要走。
未来的 Agent 应用会涵盖更多技术,终将会融进各行各业。我们期待看到:
RAG 和智能体(Agent)这些技术和理念的潜力在于相互结合。通过结合大模型的深层次语言理解和生成能力、RAG 的垂直和实时的信息检索能力以及 Agent 的决策和执行能力,可以形成更为强大和敏捷的AI应用。Agent 能够通过自我反思和反馈来改进执行,同时提供可观察性,以便开发者能够追踪和理解 Agent 的行为。结合各种工具,融合 RAG 技术,可以处理更复杂的业务逻辑,助力构建更加复杂的 LLM 应用。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online