AI 核心概念解析:Skill、MCP 与 Function Call
在构建现代 AI 应用时,Skill(技能)、**MCP(模型上下文协议)**和 **Function Call(函数调用)**这三个概念频繁出现。很多开发者容易将它们混为一谈,其实它们分别代表了不同层级的交互能力。
简单来说,理解它们的关系关键在于区分层级:Function Call是基础的原子操作机制;Skill是面向用户的产品化封装;而MCP则是连接 AI 与外部资源的新一代通信标准。
1. Function Call(函数调用)
这是最基础、最广泛使用的概念,主要由 OpenAI 在 2023 年引入并普及。它让大语言模型能够智能地决定何时、以何种参数调用开发者预先定义好的函数。
核心逻辑
- 定义阶段:开发者向模型描述可用函数,包括名称、描述及参数类型。
- 决策阶段:用户提问后,模型根据上下文判断是否需要调用函数,以及具体参数。
- 响应阶段:模型返回结构化的 JSON 对象(如
{"name": "get_weather", "arguments": {"location": "Beijing"}}),而非直接生成自然语言。 - 执行阶段:应用程序接收 JSON 并在本地或服务器执行对应代码,获取结果后反馈给模型。
- 回复阶段:模型将执行结果组织成自然语言回复给用户。
特点
- 标准化:已成为众多模型(OpenAI, Anthropic, 国内大模型等)支持的标准特性。
- 开发层:主要面向开发者,用户感知不强,但它是实现 AI 与外部世界交互的基石。
示例:你问'北京天气怎么样?',模型不是瞎猜,而是调用了你定义的
get_weather(location)函数,并将 API 返回的真实数据告诉你。
2. Skill(技能)
这是一个更高层、更产品化的概念,常见于 AI 智能体(AI Agent)和 AI 应用平台(如 Coze, GPTs, Dify)。
核心逻辑
- 构建:在平台上通过可视化或配置化方式,将完整的能力打包。例如一个'订机票'Skill 可能包含查询航班、获取价格、填写订单等多个步骤。
- 调用:用户通过自然语言触发(如'我想去上海'),AI 智能体自动识别并调用最匹配的 Skill。
- 执行:Skill 作为一个整体在后台运行,串联多个动作,最终返回结果。
特点
- 产品化:终端用户可以直接理解和使用的东西(如'翻译技能'、'画图技能')。
- 可组合性:可以在智能体中安装多个 Skills,让它具备多种能力。
- 封装性:隐藏了底层复杂的函数调用和逻辑,提供端到端的体验。
示例:在 Coze 平台上安装了一个'全网搜索'Skill。当用户问'最近有什么科技新闻?'时,Bot 会自动使用这个 Skill 去搜索并返回结果。其底层依然依赖 Function Call 来调用搜索 API。
3. MCP(Model Context Protocol,模型上下文协议)
这是由 Anthropic 提出并主导的开放协议,旨在标准化 AI 模型与外部资源(服务器、数据库、API 等)的交互方式。可以看作是 Function Call 的进化版。
核心逻辑
- 服务器端:任何工具(如文件系统、数据库、日历 API)都可以实现为 MCP 服务器,向客户端宣告自己提供的'资源'和'工具'。


