去年我在尝试让模型自动整理文件夹时,第一次体会到 Agent 的潜力——它不只是聊天,而是真的能执行任务。但把概念落地成代码,中间有不少坑。这篇文章想帮你少踩几个。
理解 Agent:从对话到执行
AI Agent 早就不是新鲜词了。简单说,它就是能主动完成任务、调用外部工具的大型语言模型(LLM)程序。传统 LLM 是被动问答,Agent 则像有手有脚——它可以读文件、搜网页、调 API,甚至写代码。
它的核心循环通常用 ReAct 范式:思考(Thought)→ 行动(Action)→ 观察(Observation),反复执行直到任务完成。听起来抽象,但代码其实很直白。
几个会反复提到的术语
- 工具(Tool):Agent 能调用的外部能力,比如文件操作、网络请求。每个工具都实现一个
execute方法,Agent 决定什么时候用哪个。 - 规划(Plan):把大任务拆成可执行的步骤。多数实现里,就是让 LLM 生成一个步骤列表。
- 记忆(Memory):Agent 需要记住之前的操作和结果,通常是上下文窗口或外部存储。
下面是一个极简的 Agent 骨架,帮你感受一下结构:
class AIAgent:
def __init__(self, llm, tools=None):
self.llm = llm
self.tools = tools or []
self.memory = []
def execute(self, task):
understanding = self._understand(task)
plan = self._plan(understanding)
results = []
for step in plan:
result = self._execute_step(step)
results.append(result)
if not self._verify(result):
plan = self._replan(step, result)
return self._summarize(results)
# ... 其他方法
这个类背后,每一步都依赖 LLM 生成 prompt:理解任务、制定计划、选择工具、生成总结。比如 方法会向模型提问「为以下目标制定执行计划:xxx」,然后把返回的文本解析成步骤列表。


