大模型智能体（Agent）核心机制与开发指南 | 极客日志

PythonAI算法

大模型智能体（Agent）核心机制与开发指南

大模型智能体（Agent）是在大语言模型基础上，通过赋予规划、记忆和工具使用能力，使其能自主完成任务的程序。核心机制包括将任务分解为子任务的规划能力，利用思维链（CoT）和 ReAct 模式进行推理与行动；包含短期上下文记忆与长期向量数据库存储的记忆机制；以及通过函数调用（Function Calling）连接外部工具的交互能力。开发上可借助 MetaGPT 等框架快速构建多智能体协作系统。随着模型能力提升，智能体将在软件形态重构和生产效率提升方面发挥关键作用。

Elasticer发布于 2025/2/6更新于 2026/6/1625 浏览

大模型智能体（Agent）核心机制与开发指南

大语言模型 vs 人类

大语言模型很强大，就像人类的大脑一样拥有思考的能力。如果人类只有大脑，没有四肢，没有工具，是没办法与世界互动的。如果我们能给大模型配备上四肢和工具呢？大模型是不是就会打破次元壁，从数字世界走向现实世界，与现实世界实现梦幻联动呢？

大语言模型（后文将用 LLM 指代）可以接受输入，可以分析&推理、可以输出文字\代码\媒体。然而，其无法像人类一样，拥有规划思考能力、运用各种工具与物理世界互动，以及拥有人类的记忆能力。

LLM：接受输入、思考、输出
人类：LLM（接受输入、思考、输出）+ 记忆 + 工具 + 规划

如果我们给 LLM 配备上：与物理世界互动的工具、记忆能力、规划思考能力。LLM 是否就可以像人类一样，能够自主思考并规划完成任务的过程，能检索记忆，能使用各种工具提高效率，最终完成某个任务。

智能体是什么

智能体的英文是 Agent，AI 业界对智能体提出了各种定义。个人理解，智能体是一种通用问题解决器。从软件工程的角度看来，智能体是一种基于大语言模型的，具备规划思考能力、记忆能力、使用工具函数的能力，能自主完成给定任务的计算机程序。

图 1. 由 LLM 驱动的智能体系统

如图 1 所示，在基于 LLM 的智能体中，LLM 的充当着智能体的'大脑'的角色，同时还有 3 个关键部分：

规划（Planning）

智能体会把大型任务分解为子任务，并规划执行任务的流程；智能体会对任务执行的过程进行思考和反思，从而决定是继续执行任务，或判断任务完结并终止运行。

记忆（Memory）

短期记忆，是指在执行任务的过程中的上下文，会在子任务的执行过程产生和暂存，在任务完结后被清空。长期记忆是长时间保留的信息，一般是指外部知识库，通常用向量数据库来存储和检索。

工具使用（Tool use）

为智能体配备工具 API，比如：计算器、搜索工具、代码执行器、数据库查询工具等。有了这些工具 API，智能体就可以与物理世界交互，解决实际的问题。

智能体的关键构成

规划（Planning）

规划，可以为理解观察和思考。如果用人类来类比，当我们接到一个任务，我们的思维模式可能会像下面这样：

我们首先会思考怎么完成这个任务。
然后我们会审视手头上所拥有的工具，以及如何使用这些工具高效地达成目的。
我们会把任务拆分成子任务（就像我们会使用 TAPD 做任务拆分）。
在执行任务的时候，我们会对执行过程进行反思和完善，吸取教训以完善未来的步骤。
执行过程中思考任务何时可以终止。

这是人类的规划能力，我们希望智能体也拥有这样的思维模式，因此可以通过 LLM 提示工程，为智能体赋予这样的思维模式。在智能体中，最重要的是让 LLM 具备以下两个能力：

子任务分解

通过 LLM 使得智能体可以把大型任务分解为更小的、更可控的子任务，从而能够有效完成复杂的任务。

思维链（Chain of Thoughts, CoT）

思维链已经是一种比较标准的提示技术，能显著提升 LLM 完成复杂任务的效果。当我们对 LLM 这样要求「think step by step」，会发现 LLM 会把问题分解成多个步骤，一步一步思考和解决，能使得输出的结果更加准确。这是一种线性的思维方式。

思维链的 prompt 可以像是如下这样（这里只是一个极简的 prompt，实际会按需进行 prompt 调优）：

template = "Answer the question: Q: {question}? Let's think step by step:"

思维树（Tree-of-thought, ToT）

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

推理 1：当前知识不足以回答这个问题，要回答该问题，需要知道什么是「特斯拉 FSD」和「华为 ADS」   
行动 1：使用搜索工具搜索「特斯拉 FSD」和「华为 ADS」的资料   
观察 1：总结行动 1 的内容      
推理 2：基于行动 1 和观察 1 的信息，得知这是关于两个自动驾驶提供商的方案对比，基于已有的信息，现在需要生成报告   
行动 2：使用生成报告的工具，生成调研报告   
观察 2：任务完成

Thought（思考）: ...
Action（行动）: ...
Observation（观察）: ...
...
Thought（思考）: ...
Action（行动）: ...
Observation（观察）: ...
...(Repeated many times（重复多次）)

{
  "type": "function",
  "function": {
    "name": "get_n_day_weather_forecast",
    "description": "获取最近 n 天的天气预报",
    "parameters": {
      "type": "object",
      "properties": {
        "location": {
          "type": "string",
          "description": "城市或镇区 如：深圳市南山区"
        },
        "format": {
          "type": "string",
          "enum": ["celsius", "fahrenheit"],
          "description": "要使用的温度单位，摄氏度 or 华氏度"
        },
        "num_days": {
          "type": "integer",
          "description": "预测天数"
        }
      },
      "required": ["location", "format", "num_days"]
    }
  }
}

from openai import OpenClient

def chat_completion_request(messages, tools=None, tool_choice=None, model="gpt-3.5-turbo"):
    try:
        response = client.chat.completions.create(
            model=model,
            messages=messages,
            tools=tools,
            tool_choice=tool_choice,
        )
        return response
    except Exception as e:
        print("Unable to generate ChatCompletion response")
        print(f"Exception: {e}")
        return e

if __name__ == "__main__":
    messages = []
    messages.append({"role": "system", "content": "不要假设将哪些值输入到函数中。如果用户请求不明确，请要求澄清"})
    messages.append({"role": "user", "content": "未来 5 天深圳南山区的天气怎么样"})
    chat_response = chat_completion_request(messages, tools=tools)
    tool_calls = chat_response.choices[0].message.tool_calls
    print("===回复===")
    print(tool_calls)

===回复===
[ChatCompletionMessageToolCall(id='call_7qGdyUEWp34ihubinIUCTXyH', function=Function(arguments='{"location":"深圳市南山区","format":"celsius","num_days":5}', name='get_n_day_weather_forecast'), type='function')]

// 格式化看看：chat_response.choices[0].message.tool_calls:
[
  {
    "id": "call_7qGdyUEWp34ihubinIUCTXyH",
    "function": {
      "arguments": {
        "location": "深圳市南山区",
        "format": "celsius",
        "num_days": 5
      },
      "name": "get_n_day_weather_forecast"
    },
    "type": "function"
  }
]

# 执行函数
for tool_call in tool_calls:
    function = tool_call.function.name
    arguments_list = json.loads(tool_call.function.arguments)
    function_to_call = globals().get(function)
    result = function_to_call(**arguments_list)
    print("===" + function + "===")
    print(result)

    # 把函数调用结果加入到对话历史中
    messages.append(
        {
            "tool_call_id": tool_call.id,  # 用于标识函数调用的 ID
            "role": "user",
            "name": function,
            "content": "函数执行结果为:" + str(result)
        }
    )

# 函数执行结果传给 LLM，组织成自然语言回复用户
chat_response = chat_completion_request(messages, tools=tools)
print("===回复===")
print(chat_response.choices[0].message.content)

===get_n_day_weather_forecast===
[{'date': '2023-04-01', 'location': '深圳市南山区', 'temperature': '20°C', 'description': '晴朗'}, {'date': '2023-04-02', 'location': '深圳市南山区', 'temperature': '21°C', 'description': '多云'}, {'date': '2023-04-03', 'location': '深圳市南山区', 'temperature': '22°C', 'description': '晴朗'}, {'date': '2023-04-04', 'location': '深圳市南山区', 'temperature': '23°C', 'description': '多云'}, {'date': '2023-04-05', 'location': '深圳市南山区', 'temperature': '24°C', 'description': '晴朗'}]
===回复===
未来 5 天深圳南山区的天气情况如下：
- 4 月 1 日：晴朗，温度 20°C
- 4 月 2 日：多云，温度 21°C
- 4 月 3 日：晴朗，温度 22°C
- 4 月 4 日：多云，温度 23°C
- 4 月 5 日：晴朗，温度 24°C

请注意天气预报仅供参考，实际情况可能会有所变化。

大模型智能体（Agent）核心机制与开发指南

大模型智能体（Agent）核心机制与开发指南

大语言模型 vs 人类

智能体是什么

规划（Planning）

记忆（Memory）

工具使用（Tool use）

智能体的关键构成

规划（Planning）

子任务分解

思维链（Chain of Thoughts, CoT）

思维树（Tree-of-thought, ToT）

更多推荐文章

相关免费在线工具

反思和完善

ReAct

记忆（Memory）

工具使用（Tool use）

函数描述

调用 LLM 获得函数的请求参数

调用函数

智能体的开发框架

展望

更多推荐文章

相关免费在线工具

大模型智能体（Agent）核心机制与开发指南

大模型智能体（Agent）核心机制与开发指南

大语言模型 vs 人类

智能体是什么

规划（Planning）

记忆（Memory）

工具使用（Tool use）

智能体的关键构成

规划（Planning）

子任务分解

思维链（Chain of Thoughts, CoT）

思维树（Tree-of-thought, ToT）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

反思和完善

ReAct

记忆（Memory）

工具使用（Tool use）

函数描述

调用 LLM 获得函数的请求参数

调用函数

智能体的开发框架

展望

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具