在人工智能的演进历程中,如果说大语言模型(LLM)是'大脑',那么 Agent (智能体) 就是拥有手脚的'完整人',而 Skills (技能) 正是这些手脚能完成的具体动作。
从单纯的对话机器人(Chatbot)向能够解决复杂任务的 Agent 进化,核心在于 Skills 的设计与集成。本文将深入探讨 Agent Skills 的定义、架构、运作机制以及设计最佳实践。
1. 什么是 Agent Skills?
Agent Skills,通常也被称为 Tools (工具) 或 Capabilities (能力),是指赋予大语言模型与外部世界交互的接口。
原生的 LLM 存在两个主要局限:
- 幻觉与知识截止:它只能依赖训练时的权重,无法获取实时信息。
- 行动力缺失:它只能输出文本,无法点击按钮、发送邮件或查询数据库。
Skills 填补了这一空白。它本质上是一段可执行的代码、一个 API 接口或一个工作流,Agent 可以根据用户的意图,自主决定何时调用、如何调用这些技能,从而完成实际任务。
比喻
- LLM:一位博学但被关在空房间里的指挥官(大脑)。
- User:下达命令的客户。
- Skills:电话、互联网、计算器、文件柜、秘书(手脚和工具)。
2. Skill 的核心解剖结构
一个标准的 Agent Skill 通常包含以下四个关键要素。对于开发者而言,这通常对应于 Function Calling (函数调用) 的定义结构:
2.1. 名称 (Name)
技能的唯一标识符。例如 get_current_weather 或 search_wikipedia。
2.2. 描述 (Description) —— 最关键的部分
这是写给 LLM 看的'说明书'。LLM 并不理解代码逻辑,它依靠自然语言描述来判断:
- 这个技能是做什么的?
- 在什么场景下应该使用这个技能?
示例:
'当用户询问特定地点的实时天气状况、气温或风向时使用此工具。不要用于查询历史天气。'
2.3. 参数架构 (Parameter Schema)
定义了技能运行所需的输入数据格式(通常是 JSON Schema)。
- 必填项:如查询天气的
location(城市)。 - 选填项:如
unit(摄氏度或华氏度)。
2.4. 执行逻辑 (Implementation)
这是实际运行的代码。当 LLM 决定调用技能并填充好参数后,系统会在后台运行这段代码(如调用 REST API、执行 Python 脚本、查询 SQL 数据库),并将结果返回给 LLM。
3. Skills 的分类
根据功能属性,Agent Skills 通常分为以下几类:
3.1. 信息检索类 (Retrieval Skills)
解决 LLM 知识时效性和私有数据问题。
- Web Search:使用 Google/Bing API 搜索实时新闻。
- RAG (检索增强生成):在企业私有向量数据库中查找文档。


