AI Agent 开发实战：从核心概念到落地代码 | 极客日志

PythonAI算法

AI Agent 开发实战：从核心概念到落地代码

AI Agent 开发需将大模型与工具调用结合，实现主动执行任务的智能体。从 ReAct 循环原理出发，结合代码示例讲解架构设计，强调从小场景入手、重视提示词和建立评估体系的实践策略。文档处理成功案例与过度自动化失败教训的对比，说明明确边界和人工兜底机制的重要性。选模型、效果衡量、成本控制及安全方面需权衡，多模态与端侧部署是未来趋势。

颠三倒四发布于 2026/6/70 浏览

AI Agent架构示意

去年我在尝试让模型自动整理文件夹时，第一次体会到 Agent 的潜力——它不只是聊天，而是真的能执行任务。但把概念落地成代码，中间有不少坑。这篇文章想帮你少踩几个。

理解 Agent：从对话到执行

AI Agent 早就不是新鲜词了。简单说，它就是能主动完成任务、调用外部工具的大型语言模型（LLM）程序。传统 LLM 是被动问答，Agent 则像有手有脚——它可以读文件、搜网页、调 API，甚至写代码。

它的核心循环通常用 ReAct 范式：思考（Thought）→ 行动（Action）→ 观察（Observation），反复执行直到任务完成。听起来抽象，但代码其实很直白。

几个会反复提到的术语

工具（Tool）：Agent 能调用的外部能力，比如文件操作、网络请求。每个工具都实现一个 execute 方法，Agent 决定什么时候用哪个。
规划（Plan）：把大任务拆成可执行的步骤。多数实现里，就是让 LLM 生成一个步骤列表。
记忆（Memory）：Agent 需要记住之前的操作和结果，通常是上下文窗口或外部存储。

下面是一个极简的 Agent 骨架，帮你感受一下结构：

class AIAgent:
    def __init__(self, llm, tools=None):
        self.llm = llm
        self.tools = tools or []
        self.memory = []

    def execute(self, task):
        understanding = self._understand(task)
        plan = self._plan(understanding)
        results = []
        for step in plan:
            result = self._execute_step(step)
            results.append(result)
            if not self._verify(result):
                plan = self._replan(step, result)
        return self._summarize(results)
    # ... 其他方法

这个类背后，每一步都依赖 LLM 生成 prompt：理解任务、制定计划、选择工具、生成总结。比如方法会向模型提问「为以下目标制定执行计划：xxx」，然后把返回的文本解析成步骤列表。

更多推荐文章

查看全部

_plan

class ReActAgent:
    def run(self, task):
        context = f"任务：{task}\n"
        for i in range(self.max_iterations):
            thought = self._think(context)
            if "任务完成" in thought or "Final Answer:" in thought:
                return self._extract_answer(thought)
            action, action_input = self._decide_action(thought)
            observation = self._observe(action, action_input)
            context += f"\n思考：{thought}\n行动：{action}({action_input})\n观察：{observation}"

┌─────────────────────────────────────────┐
│ 应用层 (Application)                      │
├─────────────────────────────────────────┤
│ Agent 层 (智能体)                        │
├─────────────────────────────────────────┤
│ 工具层 (Tools)                           │
├─────────────────────────────────────────┤
│ 模型层 (LLM)                             │
├─────────────────────────────────────────┤
│ 基础设施层 (Infrastructure)               │
└─────────────────────────────────────────┘

def evaluate_agent(agent, test_cases):
    metrics = {'success_rate': 0, 'avg_time': 0, 'avg_steps': 0}
    for case in test_cases:
        start = time.time()
        result = agent.execute(case['task'])
        elapsed = time.time() - start
        steps = len(agent.memory)
        success = (result == case['expected'])
        # 记录计算...
    return metrics

# 工具基类
class Tool:
    name = "base_tool"
    def execute(self, input_data):
        raise NotImplementedError
    def can_handle(self, task):
        return False

class FileTool(Tool):
    name = "file_tool"
    def execute(self, input_data):
        return f"文件操作完成：{input_data}"
    def can_handle(self, task):
        return "文件" in task or "file" in task.lower()

class WebTool(Tool):
    name = "web_tool"
    def execute(self, input_data):
        return f"网络请求完成：{input_data}"
    def can_handle(self, task):
        return "搜索" in task or "网页" in task or "web" in task.lower()

class DefaultTool(Tool):
    name = "default"
    def execute(self, input_data):
        return f"默认处理：{input_data}"

class MockLLM:
    def generate(self, prompt):
        if "思考" in prompt:
            return "我需要先搜索相关信息"
        elif "选择" in prompt:
            return "工具：web_tool\n参数：搜索 AI Agent"
        return "处理完成"

# 基础执行框架
class AIAgent:
    def __init__(self, llm, tools=None):
        self.llm = llm
        self.tools = tools or []
        self.memory = []

    def execute(self, task):
        understanding = self._understand(task)
        plan = self._plan(understanding)
        results = []
        for step in plan:
            result = self._execute_step(step)
            results.append(result)
            if not self._verify(result):
                plan = self._replan(step, result)
        return self._summarize(results)

    def _understand(self, task):
        prompt = f"分析以下任务的核心目标：{task}"
        return self.llm.generate(prompt)

    def _plan(self, understanding):
        prompt = f"为以下目标制定执行计划：{understanding}"
        plan_text = self.llm.generate(prompt)
        return self._parse_plan(plan_text)

    def _execute_step(self, step):
        tool = self._select_tool(step)
        result = tool.execute(step)
        self.memory.append({'step': step, 'tool': tool.name, 'result': result})
        return result

    def _verify(self, result):
        return result.get('success', False)

    def _replan(self, failed_step, result):
        prompt = f"步骤'{failed_step}'执行失败，结果：{result}，请调整计划"
        new_plan = self.llm.generate(prompt)
        return self._parse_plan(new_plan)

    def _summarize(self, results):
        prompt = f"总结以下执行结果：{results}"
        return self.llm.generate(prompt)

    def _parse_plan(self, plan_text):
        return [line.strip() for line in plan_text.split('\n') if line.strip()]

    def _select_tool(self, step):
        for tool in self.tools:
            if tool.can_handle(step):
                return tool
        return DefaultTool()

# ReAct Agent
class ReActAgent:
    def __init__(self, llm, tools):
        self.llm = llm
        self.tools = {tool.name: tool for tool in tools}
        self.max_iterations = 10

    def run(self, task):
        context = f"任务：{task}\n"
        for i in range(self.max_iterations):
            thought = self._think(context)
            if "任务完成" in thought or "Final Answer:" in thought:
                return self._extract_answer(thought)
            action, action_input = self._decide_action(thought)
            observation = self._observe(action, action_input)
            context += f"\n思考：{thought}\n行动：{action}({action_input})\n观察：{observation}"
        return "达到最大迭代次数，任务未完成"

    def _think(self, context):
        prompt = f""" {context} 请思考下一步应该做什么。如果任务已完成，请回答"任务完成：[结果]" """
        return self.llm.generate(prompt)

    def _decide_action(self, thought):
        prompt = f"根据思考'{thought}'，选择要执行的工具和参数"
        response = self.llm.generate(prompt)
        return self._parse_action(response)

    def _observe(self, action, action_input):
        if action in self.tools:
            return self.tools[action].execute(action_input)
        return f"未知工具：{action}"

    def _extract_answer(self, thought):
        return thought.split("任务完成：")[-1].strip()

    def _parse_action(self, response):
        lines = response.strip().split('\n')
        action = "default"
        action_input = ""
        for line in lines:
            if "工具：" in line or "tool:" in line.lower():
                action = line.split("：")[-1].strip()
            if "参数：" in line or "input:" in line.lower():
                action_input = line.split("：")[-1].strip()
        return action, action_input

AI Agent 开发实战：从核心概念到落地代码

理解 Agent：从对话到执行

几个会反复提到的术语

更多推荐文章

架构分层：抽象也不是白给的

实施：从小场景开始，别急着自动化一切

两个案例：一次成功，一次翻车

常见问题

趋势与个人判断

附录：完整示例代码

更多推荐文章

相关免费在线工具

AI Agent 开发实战：从核心概念到落地代码

理解 Agent：从对话到执行

几个会反复提到的术语

微信扫一扫，关注极客日志

更多推荐文章

架构分层：抽象也不是白给的

实施：从小场景开始，别急着自动化一切

两个案例：一次成功，一次翻车

常见问题

趋势与个人判断

附录：完整示例代码

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具