AI 编程新范式:一文彻底搞懂 LLM、Agent、MCP、Skill 是怎么协作的
文章目录
如果你最近在使用 Cursor、Windsurf、Antigravity、Kiro、Copilot、Trae,或者在关注「AI + IDE」的前沿进展,你大概率会被几个词反复轰炸:LLM、Agent、MCP、Skill。
它们看起来都很“高大上”,但很多文章要么偏学术,要么堆砌概念,看完依然一头雾水。
这篇文章试图用 工程师能真正落地的方式,配合通俗易懂的“三国演义”比喻,带你彻底厘清这套正在重塑软件开发的 AI 编程新架构。
一、核心结论:AI 编程进入「分工时代」
传统的 LLM 交互模式非常简单:
- 你问一句
- 它回一句
而今天的 AI 编程(如 Cursor 的 Agent 模式),工作流已经变成了:
你下目标 → AI 拆任务 → 调工具 → 真正把事干完
这背后,靠的就是一套精密的“三件套”分工:
- Agent(智能体): 负责“想”
- MCP(协议): 负责“连”
- Skill(技能): 负责“做”
理解了它们的分工,你就理解了下一代 IDE 在干什么。下面我们将逐一拆解这些角色。
二、LLM 与 Agent 🔥
1. LLM(大语言模型)
定位:纯粹的推理引擎(大脑)
这是很多人的误区:LLM 不等于 Agent。
- 本质:LLM 是一个静态的、无状态的函数。给它一段文本,它预测下一个字。
- 局限:它本身是**“无手无脚”**的。它运行在云端的显卡上,无法直接触碰你的本地文件,无法联网,也没有记忆(除非你把历史记录发给它)。
2. Agent(智能体)
定位:会思考的工程经理
Agent 是在 LLM 身上包裹的一层“系统架构”。
- 核心能力:
- Reasoning(推理):理解你的目标。
- Planning(规划):将大目标拆解为 Step 1, Step 2, Step 3。
- Tool Calling(工具调用):判断“现在该用什么工具”。
3. 对比
- LLM 是 Agent 的一个核心组件,Agent ≠ LLM
- LLM 是 Agent 的“认知内核”,Agent 是“能把事做完的系统”
- LLM 是 Agent 的核心组成部分之一,但 Agent 远不止 LLM
- Agent > LLM
Agent// 一个能自主完成任务的 AI 系统,协调各模块完成目标 ├── LLM(核心推理与生成能力) // 分析需求、理解代码、生成方案、给出决策建议 ├── Perception(多模态感知环境:Vision/Audio/Text) // 读取代码文件、Diff、日志、截图、用户输入 ├── Context(短期记忆 /Token 限制上下文窗口) // 当前对话内容、选中文件、即时指令 ├── Memory(长期记忆 / 跨会话知识存储) // 代码索引、项目历史记录、知识库召回 ├── Planner/Policy(决策与行动策略) // 决定下一步是改代码、查资料还是调用工具 ├── Executor/Verifier(多步执行与结果校验) // 执行代码修改、终端命令、脚本运行、结果验证 ├── Tools/Actions(外部工具调用与具体动作) // 编辑文件、提交代码、调用 API、终端操作 ├── Orchestration/Controller(模块调度与协作) //MCP 框架、Agent 调度、LLM