跳到主要内容
极客日志极客日志
首页博客AI提示词GitHub精选代理工具
搜索
|注册
博客列表
编程语言AI算法

案例解析:从 RAG 到 Agent 的技术演进

综述由AI生成探讨了检索增强生成(RAG)技术的局限性,并阐述了向智能体(Agent)架构演进的必要性。通过分析阿里千问团队的 Agent 案例,介绍了检索、分块阅读、逐步推理三个构建层级。实验表明,结合工具调用的 Agent 策略在长文档理解任务中优于单纯的大上下文模型和基础 RAG。未来 Agent 将在多步任务规划、外部工具集成及自我反思方面持续深化,成为连接人与机器的重要桥梁。

监控大屏发布于 2025/2/6更新于 2026/5/814 浏览
案例解析:从 RAG 到 Agent 的技术演进

案例解析:从 RAG 到 Agent 的技术演进

引言

随着大语言模型(LLM)如 ChatGPT、ChatGPT-4 等的发布,AI 技术彻底改变了人机交互的方式。越来越多的企业开始聚焦大模型技术的研发与应用,为日常生活带来极大便利。然而,大模型也面临着时效性、准确性等核心挑战。如何构建更高级的 LLM 应用?如何解决 LLM 面临的幻觉与知识滞后问题?这已成为 AI 领域的重要研究课题。

检索增强生成(RAG, Retrieval-Augmented Generation)技术应运而生,通过在自然语言处理中结合信息检索和文本生成,显著提升了机器理解和回应的准确性。但随着 RAG 的广泛应用,其局限性也逐渐显现。本文将深入探讨 RAG 的痛点,并分析向智能体(Agent)架构演进的必要性与实践路径。

RAG 的核心痛点

RAG 技术在问答系统、智能助手、信息检索等任务中表现优异。通过建立庞大的知识库,利用信息检索查询相关文本片段,经过筛选、排序和加权后作为生成模型的输入,能有效提高答案准确性,减少虚假信息。

然而,Naive RAG(基础 RAG)最初是为简单问题和小型文档集设计的。例如:

  • 事实性问题: "特斯拉的主要风险因素是什么?"
  • 特定文档查询: "作者在 YC 期间做了什么?"

针对此类问题,LLM 结合特定知识库能给出很好的答案。但在面对以下复杂场景时,RAG 往往失效:

  1. 总结性问题: "给我总结一下 XXX 公司的年度报告"(需跨段落整合)。
  2. 比较性问题: "比较开发者 A 和开发者 B 的开源贡献"(需多源对比)。
  3. 结构化分析 + 语义搜索: "告诉我美国最高业绩的拼车公司的风险因素"(需推理与过滤)。
  4. 综合性多部分问题: "告诉我文章 A 中的论点 X,文章 B 中的论点 Y,按内部风格指南制作表格并得出结论"(需多步规划与执行)。

当遇到复杂任务时,单纯的搜索系统无法提供令人满意的结果,需要引入更强的规划与执行能力。

从 RAG 到 Agent 的转变

常规的 RAG 应用通常仅通过结合自有知识库来增强大模型,局限于内容生成的范畴。若需要人工智能像高效员工一样,自主选取工具、与不同系统协作直至交付结果,则必须从 RAG 转向 Agent。

这种转变并非抛弃 RAG,而是在此基础上增加以下关键层次的功能:

  • 多轮对话: 与用户进行深度交流,精准识别用户意图。
  • 查询/任务规划层: 理解并规划复杂的查询和任务分解。
  • 外部环境工具接口: 调用外部 API 或工具完成任务(如计算器、数据库、搜索引擎)。
  • 反思机制: 对执行结果进行自我评估和修正。
  • 记忆管理: 维护交互历史,提供个性化服务。

Agent 不仅能适应复杂任务,还能在多变环境中灵活应对。它专注于实现特定任务,注重与现有系统集成。Agent 能够理解语言并在现实或数字系统中采取行动,执行检索、处理、访问数据、交互数据库等多步骤任务。

人类使用工具是显著特征,Agent 同样借助外部工具释放 LLM 潜能。例如,Agent 可调用图表生成工具创建在线图表,或使用天气查询工具获取实时数据。Agent 是真正释放 LLM 潜能的关键,标志着 LLM 应用从被动响应向主动执行的范式转移。

案例分析:阿里千问 Agent 实践

近日,阿里千问团队开发了一个结合 RAG 的 Agent,用于理解包含百万字词的文档。该方案仅使用 Qwen2 模型的 8k 上下文,效果却超越了传统 RAG 和长序列原生模型。

1. Agent 构建架构

该 Agent 的构建包含三个复杂度级别,每一层都建立在前一层的基础上。

级别一:检索(Retrieval)

目标是找出与提取关键词最相关的块,主要分为三步:

  1. 指令与非指令分离: 将用户输入拆解为信息需求与格式指令。
    • 输入示例: "回答时请用 2000 字详尽阐述,我的问题是,自行车是什么时候发明的?请用英文回复。"
    • 拆解: {"信息": ["自行车是什么时候发明的"], "指令": ["回答时用 2000 字", "尽量详尽", "用英文回复"]}
  2. 多语言关键词推导: 让聊天模型推导出多语言关键词以扩大检索范围。
    • 转换: {"关键词_英文": ["bicycles", "invented", "when"], "关键词_中文": ["自行车", "发明", "时间"]}
  3. BM25 检索: 运用 BM25 算法进行关键词匹配检索。
级别二:分块阅读(Chunk Reading)

解决相关块与用户查询关键词重叠不足导致失效的问题。策略如下:

  1. 相关性评估: 让聊天模型对每个 512 字块评估其与用户查询的相关性。若不相关输出"无",若相关输出相关句子。
  2. 二次检索: 取出相关句子作为新的搜索查询词,通过 BM25 检索出最相关的块。
  3. 生成答案: 基于检索到的上下文生成最终答案。
级别三:逐步推理(Step-by-Step Reasoning)

解决多跳推理问题。例如用户输入:"与第五交响曲创作于同一世纪的交通工具是什么?"。 模型需拆分为子问题:"第五交响曲是在哪个世纪创作的?" -> "自行车于 19 世纪发明"。 采用工具调用(函数调用)智能体或 ReAct 框架解决:

while (Lv3-智能体无法根据其记忆回答问题) {
    Lv3-智能体提出一个新的子问题待解答。
    Lv3-智能体向 Lv2-智能体提问这个子问题。
    将 Lv2-智能体的回应添加到 Lv3-智能体的记忆中。
}
Lv3-智能体提供原始问题的最终答案。

2. 实验对比

为验证效果,采用三种模型进行比对:

  • 32k-模型: 7B 对话模型,主要在 8k 上下文样本上微调,辅以少量 32k 上下文样本。
  • 4k-RAG: 使用相同模型,采取 Lv1 智能体的 RAG 策略。
  • 4k-智能体: 使用 32k 模型,但采用更复杂的智能体策略(Lv3)。

实验结果显示,4k-智能体始终表现优于 32k-模型和 4k-RAG。它结合 RAG 并通过工具调用,实现了更高的效率和准确率。这表明 Agent 的优势在于其动态规划与执行能力,而非单纯依赖上下文窗口大小。

实施挑战与优化方向

尽管 Agent 潜力巨大,但在落地过程中仍面临诸多挑战:

  1. 延迟与成本: 多步推理意味着多次 LLM 调用,增加了响应时间和 Token 消耗。优化策略包括缓存中间结果、简化规划逻辑及采用小模型辅助决策。
  2. 错误累积: 每一步的错误可能在下一步被放大。引入反思机制(Self-Reflection)和验证环节至关重要。
  3. 安全性: 自主调用工具可能带来安全风险。需建立严格的权限控制和沙箱环境。
  4. 可观测性: 开发者需要追踪 Agent 的行为链路,以便调试和理解决策过程。

未来展望

Agent 应用的开发必将遇到众多挑战,但这同样是一种机遇。每一种挑战都会触发新的技术融合。虽然李彦宏曾预言"以后不会存在程序员这种职业了",但笔者认为,Agent 虽然功能强大,路漫漫其修远兮,应用落地依然有很长的路要走。

未来的 Agent 应用会涵盖更多技术,终将会融进各行各业。我们期待看到:

  • 多 Agent 协作: 多个 Agent 同步或异步交互,执行更复杂的任务。
  • 垂直领域深化: 针对医疗、法律、金融等特定领域的专用 Agent。
  • 人机协同增强: Agent 作为副驾驶,辅助人类完成创造性工作。

结语

RAG 和智能体(Agent)这些技术和理念的潜力在于相互结合。通过结合大模型的深层次语言理解和生成能力、RAG 的垂直和实时的信息检索能力以及 Agent 的决策和执行能力,可以形成更为强大和敏捷的AI应用。Agent 能够通过自我反思和反馈来改进执行,同时提供可观察性,以便开发者能够追踪和理解 Agent 的行为。结合各种工具,融合 RAG 技术,可以处理更复杂的业务逻辑,助力构建更加复杂的 LLM 应用。

目录

  1. 案例解析:从 RAG 到 Agent 的技术演进
  2. 引言
  3. RAG 的核心痛点
  4. 从 RAG 到 Agent 的转变
  5. 案例分析:阿里千问 Agent 实践
  6. 1. Agent 构建架构
  7. 级别一:检索(Retrieval)
  8. 级别二:分块阅读(Chunk Reading)
  9. 级别三:逐步推理(Step-by-Step Reasoning)
  10. 2. 实验对比
  11. 实施挑战与优化方向
  12. 未来展望
  13. 结语
  • 💰 8折买阿里云服务器限时8折了解详情
  • GPT-5.5 超高智商模型1元抵1刀ChatGPT中转购买
  • 代充Chatgpt Plus/pro 帐号了解详情
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • CosyVoice 安装 openai-whisper 报错 pkg_resources 缺失原因及解决方案
  • AR 开发入门指南:从零构建增强现实应用
  • Rust 异步编程实战:构建高性能网络应用
  • Spring Boot 游戏开发实战:实现游戏同步、结果页面与记录管理
  • Visual C++运行库安装失败修复指南
  • Next Greater Element I 问题解析与实现
  • Python 爬虫入门实战:Requests、Scrapy 与异步爬取
  • 基于 Gradio 扩展 Youtu-VL-4B-Instruct WebUI 实现图片批处理
  • Python 基础入门:数据存储与运算核心解析
  • CosyVoice 安装 openai-whisper 报错:ModuleNotFoundError: No module named 'pkg_resources'
  • MySQL 数据类型核心指南:选型、实战与避坑
  • Coze 全解析:100 个落地用途及发布指南,低代码 AI 智能体入门
  • Microsoft 365 Copilot Chat 与 Microsoft 365 Copilot 详细对比
  • 国内主流 AI 工具对比:豆包、元宝、千问、Kimi 等七款评测
  • 高德地图离线部署方案:获取瓦片数据与私有化调用
  • 数据结构实战:选择排序原理与 Java 实现
  • 近五年体内微/纳米机器人赋能肿瘤精准治疗:聚焦 GBM
  • 深度学习模型优化策略与实战调参
  • 本地电脑部署个人 AI 大模型全攻略
  • 如何在 VS Code 中关闭 GitHub Copilot 功能

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • Base64 字符串编码/解码

    将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online