前言
你有没有遇到过这种情况:老板让你把 Excel 里的 1000 条客户信息,一条条复制到某个网页后台里。没有接口,没有导入功能,只有个破网页表单。你坐在那儿像个机器人一样,复制、粘贴、点提交,再复制、再粘贴,手指都快得腱鞘炎了。
或者你想自动抓取某个网站的数据,但那个网站反爬虫做得贼溜,API 接口层层加密,你写爬虫写到头发掉光,最后发现人家改版了,你的代码全废。
传统自动化工具比如 Selenium、Playwright,确实能解决这些问题。但说实话,写选择器(Selector)就像是在玩'大家来找茬'——你得精确找到那个按钮的 XPath 或 CSS 类名,网页一改版,全得重来。这就好比你教一个盲人找开关,必须精确到'门框右边第三块砖上方 15 厘米处',稍微装修一下,他就找不着北了。
今天聊的 OpenClaw,走了一条完全不同的路子:它让 AI 像人一样'看'屏幕,用眼睛找按钮,而不是背坐标。
一、OpenClaw 是啥?你的数字长工
OpenClaw 这玩意儿,2025 年底刚冒出来那会儿叫 Clawdbot,后来改名叫 Moltbot,最后定名 OpenClaw。短短三个月,GitHub 上星星数冲破 21 万,比 Docker、Kubernetes 当年火得还快。
简单说,它是个住在你自己电脑里的 AI 管家。不同于 ChatGPT 那种'你问一句我答一句'的聊天机器人,OpenClaw 能直接动手干活——操作浏览器、读写文件、执行命令、控制各种软件。最狠的是,它支持'视觉操作'模式,不需要你提供 API 文档,也不需要写复杂的选择器,它直接看着屏幕操作,跟人类一样。
打个比方,传统 RPA(机器人流程自动化)工具像是一个严格按照说明书组装家具的工人,说明书上写'把螺丝 A 拧进孔 B',万一孔 B 的位置变了,他就傻眼了。OpenClaw 则像是一个真的人,他看着图纸,发现孔位变了,照样能找到该拧螺丝的地方。
二、视觉操作的核心:Snapshot 快照系统
OpenClaw 的视觉操作靠的是一套叫Snapshot快照系统。这玩意儿的工作原理特别有意思:
当你让 OpenClaw 操作网页时,它不是去解析 HTML 代码找 id 或 class,而是直接对当前页面进行'视觉扫描',把所有可交互的元素——按钮、输入框、链接——都编上号。比如发现页面有 20 个可点击的元素,它就会给它们标上 [1]、[2]、[3]…
然后 AI 大模型(比如 Claude 或 GPT)看着这个带编号的截图,理解页面结构,决定点哪个编号。比如它发现'提交'按钮旁边标着 [15],就会下发指令:'点击元素 15'。
这种方式有几个巨大的好处:
1. 告别元素定位地狱
以前用 Selenium,你得写这种代码:
# 传统方式:找元素找到怀疑人生
submit_button = driver.find_element(By.CSS_SELECTOR, "div.container > button.btn-primary:nth-child(3)")
稍微改个 class 名就报错。现在用 OpenClaw,AI 直接看,管你 class 叫 btn 还是 button-v2-new,只要按钮上写着'提交',它就能认出来。
2. 自适应界面变化
软件更新了,按钮从左边挪到右边?传统脚本直接崩。OpenClaw 的 AI 会重新截图,重新识别,照样能找到按钮。
3. 跨应用操作
不仅限于浏览器,OpenClaw 还能操作桌面应用。原理类似——通过屏幕截图+OCR 识别,找到'文件'菜单、'保存'按钮,然后模拟鼠标点击。
三、实战:手把手教你让 AI 自动填表
光说不练假把式。下面来个完整的实战:让 OpenClaw 自动帮你填写一个网页表单。假设我们要每天自动登录某个后台,下载昨天的销售数据。
步骤 1:安装与环境准备
OpenClaw 是开源的,基于 Node.js。首先你得有 Node.js 环境,然后用 npm 安装:
# 克隆仓库
git clone https://github.com/openclaw/openclaw.git
cd openclaw
# 安装依赖
npm install
npx playwright install chromium


