AI 时代核心概念解析
先从最基础的开始:大语言模型(LLM)
大语言模型,英文缩写是 LLM,你可以把它理解为 AI 领域的'超级大脑'。
你可以想象一个读遍了全世界所有图书馆的学者,什么都懂一点。你问它问题,它能理解你的意思并给出回答。GPT-4、Claude、Gemini、文心一言、通义千问,这些都是大语言模型。
在 OpenClaw 里,当前使用的模型是 MiniMax-M2.5,这就是它的'大脑',负责思考和回答问题。
Token:语言的'像素'
Token 这个词有两种含义,你得区分清楚:
第一种:词元。这是语言模型处理文本的最小单位。比如'你好'这两个字,在 LLM 眼里可能是 2 个 Token。为啥?因为模型不直接'看'字,而是把文字切成一个个小碎片来处理。
第二种:令牌。这是访问系统的'身份证',比如你调用某个 API 时需要用的 API Token。
为什么 Token 很重要?因为它是 LLM 的'粮食'。模型一次只能处理固定数量的 Token,这叫'上下文窗口'。而且对开发者来说,Token = 费用——你用的越多,收费越多。
简单理解:把 Token 想象成语言的'像素'。一张图片由无数像素组成,一段文字由无数 Token 组成。LLM 每次'看'文章,只能看固定数量的'像素'。
Agent:能千活的 AI
Agent,中文叫'智能体'。这是 AI 时代最重要的概念之一。
普通的 AI 只能回答问题,比如你问 ChatGPT'今天天气怎么样',它会告诉你。而 Agent 不仅能回答,还能自主决策和执行。
举个例子:
- 普通 AI:你问'帮我订一张去北京的机票',它会告诉你怎么订。
- Agent:你说'帮我订一张去北京的机票',它真的会去查航班、比较价格、完成下单。
这就是区别——Agent 有'手脚',不只是动脑。
Agent 的核心能力包括四个方面:
- 感知——接收信息(用户消息、文件、环境状态)
- 思考——分析问题、制定计划
- 行动——执行操作(发送消息、读写文件、调用工具)
- 学习——从经验中改进
在 OpenClaw 里,当前运行环境就是 agent=main,OpenClaw 本身就是一个 Agent 运行环境。
Skill:Agent 的工具箱
Skill,中文叫'技能'。如果说 Agent 是'通用人才',那 Skill 就是'专业证书'。有了某个 Skill,Agent 就能做特定的事情。
举几个 OpenClaw 中的 Skill 例子:
- feishu-doc:读写飞书文档
- feishu-wiki:管理飞书知识库
- browser:浏览器自动化
- weather:查询天气
- skill-creator:创建新技能
这就像什么?传统开发是你要写代码、编译、运行,很麻烦。而有了 Skill,就像安装了一个 App,Agent 自动就会用这个功能。
OpenClaw:AI 手机的'操作系统'
OpenClaw 是一个 AI Agent 运行环境,你可以把它理解成 AI 手机的'操作系统'。
- OpenClaw = 安卓系统
- Agent = 手机上的 App
- Skill = App 的功能插件
OpenClaw 让 Agent 能够:

