一、OpenClaw 是啥?你的数字长工
OpenClaw 是一个住在你自己电脑里的 AI 管家。不同于 ChatGPT 那种'你问一句我答一句'的聊天机器人,OpenClaw 能直接动手干活——操作浏览器、读写文件、执行命令、控制各种软件。最狠的是,它支持'视觉操作'模式,不需要你提供 API 文档,也不需要写复杂的选择器,它直接看着屏幕操作,跟人类一样。
打个比方,传统 RPA(机器人流程自动化)工具像是一个严格按照说明书组装家具的工人,说明书上写'把螺丝 A 拧进孔 B',万一孔 B 的位置变了,他就傻眼了。OpenClaw 则像是一个真的人,他看着图纸,发现孔位变了,照样能找到该拧螺丝的地方。
二、视觉操作的核心:Snapshot 快照系统
OpenClaw 的视觉操作靠的是一套叫Snapshot快照系统。这玩意儿的工作原理特别有意思:
当你让 OpenClaw 操作网页时,它不是去解析 HTML 代码找 id 或 class,而是直接对当前页面进行'视觉扫描',把所有可交互的元素——按钮、输入框、链接——都编上号。比如发现页面有 20 个可点击的元素,它就会给它们标上 [1]、[2]、[3]…
然后 AI 大模型(比如 Claude 或 GPT)看着这个带编号的截图,理解页面结构,决定点哪个编号。比如它发现'提交'按钮旁边标着 [15],就会下发指令:'点击元素 15'。
这种方式有几个巨大的好处:
1. 告别元素定位地狱
以前用 Selenium,你得写这种代码:
# 传统方式:找元素找到怀疑人生
submit_button = driver.find_element(By.CSS_SELECTOR, "div.container > button.btn-primary:nth-child(3)")
稍微改个 class 名就报错。现在用 OpenClaw,AI 直接看,管你 class 叫 btn 还是 button-v2-new,只要按钮上写着'提交',它就能认出来。
2. 自适应界面变化
软件更新了,按钮从左边挪到右边?传统脚本直接崩。OpenClaw 的 AI 会重新截图,重新识别,照样能找到按钮。
3. 跨应用操作
不仅限于浏览器,OpenClaw 还能操作桌面应用。原理类似——通过屏幕截图+OCR 识别,找到'文件'菜单、'保存'按钮,然后模拟鼠标点击。
三、实战:手把手教你让 AI 自动填表
光说不练假把式。下面来个完整的实战:让 OpenClaw 自动帮你填写一个网页表单。假设我们要每天自动登录某个后台,下载昨天的销售数据。
步骤 1:安装与环境准备
OpenClaw 是开源的,基于 Node.js。首先你得有 Node.js 环境,然后用 npm 安装:
# 克隆仓库
git clone https://github.com/openclaw/openclaw.git
cd openclaw
# 安装依赖
npm install
# 安装浏览器自动化依赖(Playwright)
npx playwright install chromium
安装完成后,配置你的 AI 模型 API Key。OpenClaw 支持 OpenAI、Anthropic 的 API,也支持本地模型(比如 Ollama 跑的 Llama)。
步骤 2:启动视觉模式
OpenClaw 提供了一个浏览器控制模块。我们要启动一个特殊的 Chromium 实例,这个浏览器是独立的,跟你平时上网的浏览器完全隔离,保证安全:
# 启动 OpenClaw Gateway
openclaw gateway --browser
这会启动一个本地 HTTP 服务,通常是 http://localhost:8080,同时打开一个干净的 Chromium 浏览器窗口。


