一、背景引入:为什么需要'Skill'?
-
概念演进背景:近年来 AI 新名词层出不穷(提示词工程 → 智能体 → MCP → A2A → A2UI → Skill)。
-
传统提示词的痛点:
- Token 浪费:当积累了大量不同用途的复杂提示词(如写菜谱、读论文、写代码)时,如果一股脑全发给 AI,会消耗大量 Token。
- AI 易迷茫(幻觉/失焦):一次性输入过多与当前问题无关的提示词信息,容易干扰 AI 的理解,导致回答不准确。
-
核心解决思路:需要一种机制,能够根据用户的问题,自动筛选并调出合适的提示词,这就是'Skill'诞生的初衷。
二、'Skill'的核心物理结构
-
核心定义:一个不同用途的提示词就是一个 Skill。在物理层面上,Skill 本身就是一个文件夹。
-
核心文件(SKILL.md):文件夹内包含一个名为
SKILL.md的文件,存放着提示词的主体内容(如写菜谱的具体要求、克数精确度等)。 -
关键组件(Metadata):
- 概念解析:在
SKILL.md文件的最开头,包含一段简短的介绍,称为Metadata(元数据)。 - 核心作用:内容极简,仅用于概括当前 Skill 的作用(如'关于如何写菜谱')。系统会收集所有 Skill 的 Metadata,随用户问题一并发送给 AI,占用 Token 极少。
- 概念解析:在
三、Skill 的三大核心运行机制(高频重点)
(本部分以 Claude 模型的处理流程为例,是理解 Skill 工作原理的绝对核心)
-
步骤一:Discovery(发现)
- 运行逻辑:AI 收到用户问题(如'如何做豆浆?')和所有 Skill 的短小Metadata后,通过语义理解,匹配出与当前问题最相关的 Skill(如发现'关于如何写菜谱'的 Skill 匹配度极高)。
- 核心结论:这一步 AI并不直接回答问题,而是先定位用哪个 Skill。
-
步骤二:Activation(激活)
- 运行逻辑:AI 生成一个特殊回复,指令客户端去读取刚才匹配到的对应 Skill 的完整内容。客户端收到指令后,将完整的
SKILL.md发送给 AI。 - 核心价值:实现了按需读取(动态读取)。仅在需要时才加载冗长的完整提示词,完美解决了 Token 浪费和信息干扰的问题。
- 运行逻辑:AI 生成一个特殊回复,指令客户端去读取刚才匹配到的对应 Skill 的完整内容。客户端收到指令后,将完整的
-
步骤三:Execution(执行)
- 运行逻辑:AI 不仅可以读取文件命令,还可以执行其他系统级命令(本质上是 AI 让客户端通过执行命令的方式来完成读取或操作)。
- 运行环境差异(易混淆点):
- 本地运行(如 Claude Code/桌面端):命令直接在本地电脑执行,可直接访问本地存取的 Skill 文件。
- 云端网页版:命令在官方提供的虚拟沙盒中运行,才能被访问和执行。

