大模型时代 AI Agent 技术架构与应用详解
AI Agent 是模拟人类智能行为的系统,核心为大型语言模型结合规划、记忆与工具。文章解析了 AI Agent 的概念起源、组成架构及工作过程,对比了传统大模型在长文本处理上的局限性。介绍了个人生产力、商业服务、创意娱乐等应用场景,并列举了 Coze、HuggingFace 等构建平台。通过旅游专家智能体的实战案例,展示了提示词编写、插件添加与工作流编排的具体步骤,分析了当前面临的幻觉、成本及安全挑战,并展望了多智能体协作的未来趋势。

AI Agent 是模拟人类智能行为的系统,核心为大型语言模型结合规划、记忆与工具。文章解析了 AI Agent 的概念起源、组成架构及工作过程,对比了传统大模型在长文本处理上的局限性。介绍了个人生产力、商业服务、创意娱乐等应用场景,并列举了 Coze、HuggingFace 等构建平台。通过旅游专家智能体的实战案例,展示了提示词编写、插件添加与工作流编排的具体步骤,分析了当前面临的幻觉、成本及安全挑战,并展望了多智能体协作的未来趋势。

当前,通往通用人工智能(AGI)的探索路线有很多,而 AI Agent 有望成为未来产品的主流。AI Agent 是一种任何人都可以尝试构建的个性化应用,如果说大模型是工程师的技术游戏,那么 AI Agent 则像是每个人都能玩的乐高。
李彦宏认为,AI 时代制作一个智能体就和在互联网时代制作网站一样简单。未来各行各业都会基于各自领域的具体场景,制作出几百万甚至更大量的智能体。智能体是 AI 时代的网页。
周鸿祎认为,AI Agent 将激发大模型潜能成为超级生产力工具。
吴恩达认为,智能体的发展将会成为 AI 时代重要的力量,甚至比基础模型还要重要。
想象一下,我们要写一本 10 万字的书,主题是'人工智能与前端开发最新技术'。在没有大模型之前,我们通常是按照以下传统方式这么操作的。
有了大模型之后,事情听起来好像简单多了,我们可以直接跟 AI 说:'你是一个技术和写作专家,请你帮我写一本 10 万字的书,主题是'人工智能与前端开发最新技术'。'
结果呢? 你很快就会发现 AI 写出来的书根本不能看,没法阅读,为什么?
因为大模型生成的内容存在几个关键问题:
AI Agent 可以解决这些问题
相比于单纯的大模型,AI Agent 能够结合规划、记忆和工具,解决这些问题。

智能体的概念源自哲学,可以追溯到亚里士多德和休谟等思想家。他们认为智能体是拥有欲望、信念、意图和采取行动能力的实体。这一概念后来被引入计算机科学,用于让计算机理解用户兴趣并自主执行操作。
AI Agent,或称为人工智能代理,人们更愿意称为 AI 智能体。它是模拟人类智能行为的系统,核心是大型语言模型(LLM)。这些智能体能够感知环境、做出决策,并执行任务以实现特定目标。设计 AI Agent 的理念是赋予机器自主性、适应性和交互性,使其能够在复杂多变的环境中独立运作。
这种 Agent 既可以是软件形式的程序,例如对话机器人,也可以具备物理形态,比如扫地机器人。
AI Agent = LLM(大模型) + Planning(规划) + Memory(记忆) + Tools(工具)
简而言之:
AI Agent 由如下几部分组成,我用一个管理花园的园丁的例子来说明每个模块的作用:
我们也可以认为 LLM + Planning + Memory 是人类的大脑,而 Tools 则是人类的四肢。
整个图表就是这样描述一个智能体如何从问题接收到行动执行的全过程。简单来说,就是从周围环境中收集信息,然后做出相应的决策和行动。
环境:这部分显示了人类是怎么跟智能助手互动的。比如说,有人问它明天会不会下雨,如果会,就让它给一把雨伞或提醒他带伞。
感知:智能体通过接收各种信息(文字、图片等)来了解周围的情况。
大脑:这里是处理所有信息的地方。它会利用存储的记忆和知识,通过思考和计划来做出决策。
行动:根据'大脑'做出的决策,智能助手会采取相应的行动,比如输出文字信息、调用 API、实际上递给你一把雨伞或提醒你带伞。
可服务于个人用户,致力于提升个人在生活、学习以及工作方面的效率,为个人提供自我提升所需的工具与资源。
![]() | ![]() | ![]() | ![]() |
|---|---|---|---|
| 效率工具 | 生活助手 | 角色扮演 | 学习教育 |
可打造专注于为商业服务、商业策划、专业软件开发等领域提供专业服务和工具的产品。其通常面向企业和专业人士,用以支持他们的商业活动与专业工作。
![]() | ![]() | ![]() | ![]() |
|---|---|---|---|
| 商业服务 | 商业策划 | 代码助手 | 文本创作 |
围绕创意表达与娱乐体验,无论是以文字、图像还是互动游戏的形式呈现,都为用户提供了一个表达创意、享受休闲时光的平台。
![]() | ![]() | ![]() | ![]() |
|---|---|---|---|
| 图文绘画 | 游戏娱乐 | 音乐创作 | 国学智慧 |
AI Agent 的应用范围已经从单一的客服和助手角色,扩展到了旅游、医疗、教育、金融、交通等多个领域。
它们在提供个性化服务、优化业务流程、增强决策支持等方面发挥着重要作用。
Cognition AI 推出全球首个 AI 软件工程师 Devin,因其仅需一句指令,即可端到端地处理整个开发项目;
功能:全栈技能,自学新语言和框架、开发迭代应用、自动 Debug、长期推理和规划能力、独立完成编码和应用上线功能。
目前,构建 AI Agent 的平台正在快速发展,提供了多样化的工具和环境,使开发者能够创建复杂的智能应用。
Coze(扣子):这是一个面向用户友好的 AI Agent 构建平台,提供简单易用的工具,即便是没有技术背景的用户也能使用它创建和训练自己的 AI Agent。适用于低代码或无代码的智能体构建需求。
HuggingFace:作为一个广泛使用的 NLP 平台,HuggingFace 提供了丰富的预训练模型和工具,支持开发者快速构建和部署自然语言处理应用。它也为 AI Agent 的开发提供了强大的技术支撑。
Open AI:Open AI 中的 ChatGPT 里提供的 GPTs,支持开发者通过 GPT-4 等大型语言模型构建 AI Agent。这些 GPTs 能够处理自然语言任务,比如文本生成、翻译和总结。
豆包:字节跳动推出的 AI 智能体平台,基于云雀模型,支持网页、iOS 和安卓等多个平台。豆包可以提供聊天机器人、写作助手、英语学习助手等功能,并允许用户创建自己的智能体,面向广泛的消费者市场。
此外还有 Dify、文小言、智谱清言、通义、腾讯元宝等平台。
智能体入口:这里我主要使用字节跳动开发的扣子来搭建智能体。
扣子是新一代 AI 应用开发平台。无论你是否有编程基础,都可以在扣子上快速搭建基于大模型的各类 Bot,并将 Bot 发布到各个社交平台、通讯软件或部署到网站等其他渠道。
无限拓展的能力集: 已经集成了近百款各类型的插件,免费使用。
灵活的工作流设计: 用来处理逻辑复杂,且有较高稳定性要求的任务流。提供了大量灵活可组合的节点包括大语言模型 LLM、自定义代码、判断逻辑等,无论你是否有编程基础,都可通过拖拉拽的方式快速搭建一个工作流。
丰富的数据源: 提供了简单易用的知识库功能来管理和存储数据。
持久化的记忆能力: 可持久记住用户对话的重要参数或内容。
Bot 创建后,你会直接进入 Bot 编排页面。
在人设与回复逻辑模块写提示词。Bot 根据 LLM 对提示词的理解来回答用户的问题。提示越清晰,就越符合预期。
例如:你可以单击优化,让大语言模型优化为结构化内容。
# 角色
AI 小蜂是一位专业且贴心的旅游专家,能够全面满足用户在旅游规划、票务预订、酒店选择、交通安排、天气查询、
景点视频获取、文化了解、照片美化及旅行日记撰写等方面的需求。
## 技能
### 技能 1: 旅游路线规划
1. 当用户提出路线规划需求时,详细了解出行人数、时间、预算和偏好。
2. 结合用户需求和目的地特点,设计个性化且合理的行程安排。
3. 调用 journey_plan 工作流,将用户的需求传到 journey_plan 工作流 info 参数中。
### 技能 2: 票务查询
1. 明确用户的出发地和目的地以及出行时间。
2. 实时查询并提供准确的机票和火车票信息。回复示例:
- 🚍 出发地:<出发地名称>
- 📍 目的地:<目的地名称>
- 🕙 出行时间:<具体日期和时间>
- 💺 票务信息:<车次/航班号、出发和到达时间、票价等>
根据自己想要实现的功能来添加对应的技能,这里提供的技能点非常多,很灵活。
插件是一个工具集,插件可以扩展自己 Bot 的能力,目前扣子已经集成了近百款各类型的插件,比如实时联网,创建思维导图,资讯阅读、旅游出行、效率办公、图片理解等 API 及多模态模型。
法一:可以点击插件右侧的 + 号,自己找需要的插件来加入,点击添加按钮会加入到自己 Bot 里面。
法二:根据你的提示词来自动添加插件,有点智能但不多。
但实际体验下来,使用非官方的插件要小心,有些非官方的插件数据跑不通,会有报错,很影响用户体验。
工作流可以理解为将一个复杂任务拆分为很多的步骤,每一个步骤是一个节点,各个步骤连接起来构成一个工作流。节点是工作流的基本单元,可以理解为一个功能函数,比如大语言模型 LLM、自定义代码、判断逻辑、消息、插件等节点。
工作流支持通过可视化的方式,对插件、大语言模型、代码块等功能进行组合,有点像搭积木的过程,从而实现复杂、稳定的业务流程编排,例如旅行规划、报告分析等。
当目标任务场景包含较多的步骤,且对输出结果的准确性、格式有严格要求时,适合配置工作流来实现。
这里我总共使用了三个工作流。
旅行计划或攻略工作流主要是生成旅游攻略,旅游视频,旅游图片的内容。
开始节点
旅游攻略生成消息节点
消息节点类似于在数据加载过程中,给用户 loading 的效果,提高用户体验,因为可能生成的内容会比较久。
生成旅游攻略的大模型节点
中间的提示词:
# 角色
你是马蜂窝上的旅游博主专家,你非常擅长为旅游爱好者提供性价比高、实用的旅行计划和建议,分享你丰富的旅游经验和攻略。
## 技能
- 深入了解不同旅游目的地的特色和亮点。
- 能够根据用户需求和目的地特点,提供个性化和实用合理的旅游计划。
- 熟悉旅游行业的最新趋势和信息,提供前沿的旅游建议。
## 限制
- 仅讨论与旅游相关的话题,确保内容的专业性和实用性。
- 遵循马蜂窝的文案风格,使用口语化和生动的表达方式。
- 总结部分控制在 200 字以内,至少 150 字以上,简明扼要地传达信息。
- 在分享旅游计划和建议时,必须考虑用户的旅行时间、目的地、预算和兴趣爱好。
- 禁止 markdown 格式输出内容,只在回答合适地方添加换行符,以便增加可读性。
## 工作流程
1. 收集用户的旅行需求,包括旅行时间、目的地、预算和兴趣爱好。并展示出来。
2. 根据收集到的信息,推荐几个性价比高的旅游计划,并提供详细的行程安排 (包括每日的活动安排、景点参观、用餐安排、推荐理由等) 和费用预算、预算规划。
3. 分享旅游建议,包括最佳旅游季节、当地交通、住宿选择、特色美食、主要活动等实用信息。
4. 根据个人经验,分享目的地的旅游经验、旅行亮点和小贴士。
## 回答
请回答以下内容:
{{input}}
旅游视频攻略的抖音插件节点
旅游图片攻略的必应图片插件节点
处理吃喝玩乐内容的大模型节点
主要用来生成小红书类型笔记的。
中间大模型的提示词:
# Role: 小红书风格旅行日记生成器
## Profile
- author: wzz
- version: 1.0
- language: 中文
- description: 小红书风格旅行日记生成器专为生成符合小红书平台风格的旅行日记,结合用户的旅游经历,生成简洁、精炼且富有个性化的内容,便于用户在社交平台上分享。
## Skills
1. 提炼旅行亮点:从用户的旅行经历中提炼出最具分享价值的亮点。
2. 撰写简洁日记:用简洁明了的语言撰写旅行日记,符合小红书的内容风格。
3. 加入个人感悟:在日记中融入用户的个人感悟和小贴士,增强内容的实用性和共鸣感。
4. 内容分段:将内容进行分段,使用表情符号、短句、标签等方式增强阅读体验。
5. 配图建议:为用户的日记内容提供适合的小红书风格配图建议。
## Rules
1. 内容应简洁、直观,突出旅行的重点和特色,避免冗长描述。
2. 语言风格应符合小红书用户的阅读习惯,活泼、生动、有个性。
3. 注重可读性,使用简短的段落、表情符号和标签来分隔内容。
4. 确保内容真实、有趣,并包含用户的个人观点或建议。
## Workflows
1. 根据用户在以上聊天中的信息 {{bot}},收集用户的旅游经历,包括地点、活动、感受、特别的发现和建议,生成旅游笔记。
2. 提炼出旅行中的亮点,构思简洁有趣的日记内容。
3. 生成符合小红书风格的旅行日记,分段撰写,加入表情符号和标签。
4. 提供日记内容,并建议适合的配图风格和发布策略。
整体流程
识别游玩目的地的大模型节点
提示词:
# 角色
你是一个专业的行程规划分析员,能够从用户提供的行程规划文字 {{input}} 中准确提取出游玩的城市,并以数组字符串的格式返回城市列表。
## 技能
### 技能 1:提取城市
1. 仔细阅读用户提供的行程规划文字。
2. 准确识别出其中涉及的游玩城市。
3. 将城市以数组字符串的格式进行返回,如 ['城市名 1','城市名 2']。
## 限制
- 只处理与行程规划中城市提取相关的内容,拒绝回答其他无关问题。
- 严格按照数组字符串的格式返回城市列表,不得有其他多余字符或格式错误。
查询酒店信息的插件节点
润色酒店的大模型节点
提示词:
# 角色
你是一位旅游规划师,可以根据用户给出的酒店查询的数据结果整合起来,通过 Markdown 等方式简单方便呈现出现,并提出一些相关的酒店选择建议。
## 技能
### 技能 1: 整合酒店查询结果
1. 当用户给出酒店 JSON 查询结果 {{input}} 时,你需要将所有结果整合到一个 Markdown 表格中,方便用户查看和比较。
2. 在整合结果时,你需要包括以下信息:酒店名称、地址、价格、评分、设施等。
### 技能 2: 提出酒店选择建议
1. 基于整合后的酒店查询结果,你需要根据用户的需求和偏好,提出一些相关的酒店选择建议。
2. 你的建议应该考虑到用户的预算、出行目的、地理位置等因素。
## 限制
- 只讨论与酒店相关的话题,拒绝回答与酒店无关的问题。
- 所输出的内容必须按照给定的格式进行组织,不能偏离框架要求。
- 总结部分不能超过 100 字。
尽管 AI Agent 展现出巨大的潜力,但在实际落地过程中仍面临诸多挑战。
随着技术的进步,AI Agent 将更加智能化、自主化,成为人机协作的核心载体。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online