Agent 开发的三重境界
在人工智能领域,是一个不断演进的过程,它涉及到如何将 AI 技术与实际应用相结合,以提高效率、增强用户体验和推动业务发展。本文将探讨 Agent 开发的三个阶段,从基础的 API 使用到复杂的智能应用开发,逐步深入,帮助读者理解 Agent 开发的深层含义。
Agent 开发演进分为三个阶段:首先是将大模型作为理解语义的 API,用于文本生成与总结;其次是作为自然语言编程工具,利用提示词工程与函数调用实现数据汇总与流程自动化;最后是将其视为真正的智能体,具备自主决策能力,通过角色限定、技能绑定及工作流设置模拟人类团队协作。详细解析了各阶段的技术特征与典型应用场景,为开发者提供从基础集成到复杂智能应用构建的参考路径。

在人工智能领域,是一个不断演进的过程,它涉及到如何将 AI 技术与实际应用相结合,以提高效率、增强用户体验和推动业务发展。本文将探讨 Agent 开发的三个阶段,从基础的 API 使用到复杂的智能应用开发,逐步深入,帮助读者理解 Agent 开发的深层含义。
随着人工智能技术的飞速发展,Agent的概念已经从科幻小说走进了现实世界。Agent 可以被理解为一种具有一定智能的软件实体,它能够自主地执行任务、做出决策并与其他系统交互。
本文将从技术角度出发,为大家解析这三个阶段的演进方式,并为开发者提供一份 Agent 开发的指南。
在 Agent 开发的初级阶段,我们可以将大语言模型视为一种能理解自然语言的 API。这意味着,我们可以像调用任何传统 API 一样,向 Agent 发送请求,并期望得到一个经过理解和处理的响应。
在这个阶段开发的智能体,大多是在传统软件业务流程中,嵌入 LLM 的能力,对软件功能进行增强。对 LLM 的使用局限在其对自然语言的理解能力上,应用场景大多局限在文本生成、总结等方面,与传统软件开发调用各类工具 API 的模式并无明显区别。
我们可以将 Agent 作为一个内容生成器,输入视频的关键信息,Agent 则能够根据这些信息生成吸引人的文案。这个过程可以看作是将 Agent 作为一个文本生成 API 来使用。
另一个典型的应用场景是新闻内容的自动总结。Agent 可以接收大量的新闻数据,然后通过自然语言理解能力,提炼出关键信息,生成一份简洁的新闻日报。结合网页信息获取工具,可以实现基于 LangChain 的新闻总结功能。
在这一阶段,Agent 的开发主要集中在如何更好地理解和处理自然语言上。开发者在 AI 领域只需要熟悉自然语言处理(NLP)的基本原理,在 AI 工程上用到最多的也限于提示词优化,就能够利用现有的 AI 模型来实现这一功能。
在第二阶段,Agent 不再仅仅是一个理解语言的 API,而是一个可以进行自然语言编程的工具。这意味着,开发者可以通过自然语言来指导 Agent 完成更复杂的任务。
在这个阶段开发的智能体,不再局限于文本理解的场景。通过提示词工程、Function Calling 等方式,能够让大语言模型按提示要求格式化输出内容,进而在一定程度上能够重塑传统软件业务流程的多个环节,可以说是通过 LLM 进行自然语言编程应用。
在这个场景中,Agent 接收多个数据表,然后通过自然语言提示,自动进行数据汇总和去重,最终输出一份整洁的汇总表。使用 LangGraph 的流程编排,可以实现结合数据处理、过滤、去重、汇总的功能。
通过 AI 执行意图识别,Agent 可以在某些业务流程中减少人工审核环节,自动识别并推动流程的执行。关于大语言模型的意图识别,可以通过构建专门的分类器或 Prompt 策略来实现。
为了实现这一阶段的功能,开发者需要掌握提示词工程和 Function Calling 等技术。这些技术允许开发者通过自然语言来指导 Agent 的行为,使其能够按照预期执行特定的任务。
在 Agent 开发的第三阶段,Agent 被真正当作一个智能体来使用。这时,Agent 不再只是一个简单的 API 或者工具,而是成为了一个具有自主决策能力的智能伙伴。
这个阶段的智能体开发,与AI 原生应用开发大体相同,但这个阶段的应用开发与传统软件开发的思维方式确实是完全不同了,LLM 被真正当作智能来使用。
在软件开发时,更多要思考的是,这个事情如果是由一个人类团队来执行:
可以看到,这个阶段 LLM 不再作为 API 独立存在,而是绑定了角色和技能,并需要进行多个 Agent 的组合,已经与人类智能的使用方式一致。
Plan-and-Execute 指的是涉及规划与执行两个主要步骤的过程,Agent 需要根据给定的目标自主生成计划,并基于计划步骤自动执行任务,这要求 Agent 具备理解计划、制定策略并执行任务的能力。
例如,如果给定的任务是'计划一次从北京到上海的旅行',那么大语言模型的'规划'步骤可能包括确定旅行日期、选择交通方式、预订住宿和活动等,而'执行'步骤则可能涉及生成详细的行程安排和必要的预订步骤。通过结合搜索和自动问答工具,可以实现搜索问答增强的 Demo。
BabyAGI 是一个由开发者 Yohei Nakajima 创建的 AI 驱动的任务管理系统。它利用 OpenAI 和 Pinecone APIs 来创建、优先排序和执行任务。这是一个典型的自我迭代任务管理案例,展示了 Agent 如何通过循环机制不断优化结果。
在这一阶段,开发者需要考虑的是如何将 Agent 与人类团队的工作方式相结合。这涉及到角色限定、技能绑定、状态设置以及工作流程的设置等多个方面。同时,还需要关注 Agent 的长期记忆管理、上下文窗口限制以及多轮对话中的状态保持问题。
Agent 开发的三重境界代表了 AI 技术从简单应用到深度融合的演进过程。随着技术的不断进步,我们有理由相信,Agent 将在未来的软件开发中扮演越来越重要的角色。
对于程序员而言,理解并掌握 Agent 开发的这三个阶段,将有助于他们更好地适应未来的技术发展趋势。从简单的 API 调用到复杂的自主智能协作,开发者需要不断更新知识体系,掌握提示词工程、函数调用、工作流编排以及多智能体协同等关键技术,从而构建出真正具备解决问题能力的智能应用。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online