AI 大模型落地基础:Prompt、Agent 与工具调用详解
本文介绍了 AI 大模型落地的基础知识,涵盖 User Prompt 与 System Prompt 的区别、AI Agent 的工作原理及流程、Function Calling 的工具调用标准化机制、MCP 协议作为通用接入标准的作用、上下文窗口的限制以及 RAG 检索增强生成技术。通过理解这些核心概念,可以掌握当前 AI 应用的核心架构。

本文介绍了 AI 大模型落地的基础知识,涵盖 User Prompt 与 System Prompt 的区别、AI Agent 的工作原理及流程、Function Calling 的工具调用标准化机制、MCP 协议作为通用接入标准的作用、上下文窗口的限制以及 RAG 检索增强生成技术。通过理解这些核心概念,可以掌握当前 AI 应用的核心架构。

近期各种模型频繁迭代,仅听到这些模型的升级消息就令人振奋。
但你真的了解它们吗?你知道如何用好它们吗?例如:
可能你零星的知道些皮毛,不过没关系,现在让我带着你深入学习一番。
最早的 GPT,其实只是个'高级点的聊天机器人'。
你给它一句话(user prompt),它给你一句话回答。
它能聊天、能写文章、能解释代码。
但它不能真的帮你做事。
比如你说:
帮我把 C 盘的 hello_world.cpp 移动到 D 盘,并总结内容
它最多告诉你'应该怎么做',但不会真的帮你操作文件。
于是问题来了:
能不能让 AI 真正去执行任务?
这就引出了 —— AI Agent。
在讲 Agent 之前,我们先把基础打牢。
就是你在对话框里输入的内容。
例如:
你好
早期 GPT 只有 user prompt。
模型没有人格设定、没有角色设定,只是普通问答。
后来人们发现,可以给模型'设定人设'。
比如:
你是一个傲娇的程序员,说话尽量傲娇,最好带 emoji。
这个提示不让用户看到,但每次请求都会和 user prompt 一起发给模型。
于是模型有了:
本质上:
user prompt = 你说的话
system prompt = 模型的隐藏设定
现在进入核心。
AI 本身:
所以它只能'动脑',不能'动手'。
AI Agent 本质上就是一段程序。
它的作用是:
在 用户、AI、工具 之间做协调。
你可以理解为:
| 角色 | 职责 |
|---|---|
| AI | 思考和决策 |
| Agent | 协调和调度 |
| Tool | 实际执行 |
用户说:
读取 C 盘 hello_world.cpp,移动到 D 盘,并总结内容
流程是这样的:
第一步:Agent 告诉 AI 可以用哪些工具
例如:
第二步:AI 决定调用 read_file
调用 read_file,路径:C://hello_world.cpp
第三步:Agent 真正执行工具
第四步:AI 决定调用 move_file
第五步:Agent 执行移动
第六步:AI 输出总结
第七步:Agent 返回结果给用户
这就是一个完整的循环。
规划 → 执行 → 反馈 → 再规划 → 交付
早期 Agent 有个问题:
AI 是'猜'怎么调用工具的。
比如天气查询工具:
check_weather(city, date)
AI 可能会写:
上海 明天
问题来了:
于是就出现了 Function Calling。
Function Calling:把工具描述从 system prompt 中剥离,用 JSON 格式统一定义函数名、函数介绍、参数字段,并规范 AI 调用工具的回复格式。这就是 Function Calling 的核心:用标准化格式让 AI 理解怎么调用工具,而不是猜。
{"name":"check_weather","parameters":{"type":"object","properties":{"city":{"type":"string"},"date":{"type":"string","format":"YYYY-MM-DD"}},"required":["city"]}}
{"function_call":{"name":"check_weather","parameters":{"city":"上海","date":"2025-11-14"}}}
| 对比项 | System Prompt(传统方式) | Function Calling(标准化方式) |
|---|---|---|
| 工具描述 | 自然语言随意写(如你可以用查天气工具) | JSON 格式强制规范(必须包含 name/parameters) |
| 调用格式 | 等 AI 猜(可能返回散文式回复) | 固定 JSON 结构(如 {"function_name":"..."}) |
| 错误处理 | 开发者自己写代码重试 | 大模型服务端自动重试 |
上文提到的 Agent 和 Tool 是怎么进行交互的?最简单的做法就是把 Agent 和 Tool 写在同一个程序里面,直接通过函数调用来完成,这也是现在大多数 agent 的做法。
但其实有些 tool 的功能其实挺通用的,可能多个 agent 都需要,但总不能在每个 agent 里面都拷贝一份相同的代码吧。
我们把 tool 变成服务,统一的托管,让所有的 agent 都来调用,这就是 mcp server。mcp 是一个通信协议,专门用来规范 agent 和 tool 服务之间是怎么交互的。运行 tool 的服务叫做 mcp server,调用它的 agent 叫做 mcp client。mcp 规定了 mcp server 如何和 mcp client 通信,以及 mcp server 有哪些接口。
mcp server 既可以和 agent 跑在同一台机器上,通过标准输入输出进行通信。也可以被部署在网络上,通过 http 进行通信。虽然 mcp 是为了通用定制出来的标准,但实际上 mcp 本身却和 ai 模型没有关系,他并不关心 agent 用的是哪个模型,mcp 只负责帮 agent 托管工具、资源。
你可以把 MCP 想象成电脑的 USB-C 接口:
如果说 Function Calling 解决的是:
'怎么调用工具'
那么 MCP 解决的是:
'工具怎么统一接入'
MCP = Model Control Protocol
它把工具变成一个服务(MCP Server)。
Agent 不再直接调用工具,而是通过 MCP 协议访问。
用户问:
女朋友肚子疼怎么办?
流程:
很多人忽略这个概念,但它非常关键。
就是:
模型一次对话能记住多少内容
你可以把它想象成一块黑板。
当写满时:
模型会'擦掉最前面的内容'
这就是为什么:
最后讲一个企业级必备技术 —— RAG。
RAG = Retrieval-Augmented Generation
简单说就是:
先查资料,再生成回答。
问题:
比如:
用户问产品维修政策。
RAG 不会发 200 页手册。
而是:
优点:
我们把今天讲的全部串起来:
用户 ↓ Agent ↓(MCP 获取工具) 工具列表 ↓(Function Calling 格式) AI 模型 ↓ 调用工具 ↓ RAG 检索知识 ↓ 生成答案 ↓ 返回用户
| 名词 | 作用 |
|---|---|
| user prompt | 用户输入 |
| system prompt | 模型隐藏设定 |
| Agent | 调度协调 |
| Tool | 实际执行 |
| Function Calling | 标准化工具调用 |
| MCP | 工具接入协议 |
| 上下文窗口 | 模型记忆容量 |
| RAG | 检索增强生成 |
AI 正在从'会聊天'进化为'能做事'。
这背后不是一个技术,而是一整套体系:
理解了这些,你基本就理解了当前 AI 应用的核心架构。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML 转 Markdown 互为补充。 在线工具,Markdown 转 HTML在线工具,online