OpenClaw 视觉操作实战：AI 直接点按钮操作软件

前言

你有没有遇到过这种情况：老板让你把 Excel 里的 1000 条客户信息，一条条复制到某个网页后台里。没有接口，没有导入功能，只有个破网页表单。你坐在那儿像个机器人一样，复制、粘贴、点提交，再复制、再粘贴，手指都快得腱鞘炎了。

或者你想自动抓取某个网站的数据，但那个网站反爬虫做得贼溜，API 接口层层加密，你写爬虫写到头发掉光，最后发现人家改版了，你的代码全废。

传统自动化工具比如 Selenium、Playwright，确实能解决这些问题。但说实话，写选择器（Selector）就像是在玩'大家来找茬'——你得精确找到那个按钮的 XPath 或 CSS 类名，网页一改版，全得重来。这就好比你教一个盲人找开关，必须精确到'门框右边第三块砖上方 15 厘米处'，稍微装修一下，他就找不着北了。

今天聊的 OpenClaw，走了一条完全不同的路子：它让 AI 像人一样'看'屏幕，用眼睛找按钮，而不是背坐标。

一、OpenClaw 是啥？你的数字长工

OpenClaw 这玩意儿，2025 年底刚冒出来那会儿叫 Clawdbot，后来改名叫 Moltbot，最后定名 OpenClaw。短短三个月，GitHub 上星星数冲破 21 万，比 Docker、Kubernetes 当年火得还快。

简单说，它是个住在你自己电脑里的 AI 管家。不同于 ChatGPT 那种'你问一句我答一句'的聊天机器人，OpenClaw 能直接动手干活——操作浏览器、读写文件、执行命令、控制各种软件。最狠的是，它支持'视觉操作'模式，不需要你提供 API 文档，也不需要写复杂的选择器，它直接看着屏幕操作，跟人类一样。

打个比方，传统 RPA（机器人流程自动化）工具像是一个严格按照说明书组装家具的工人，说明书上写'把螺丝 A 拧进孔 B'，万一孔 B 的位置变了，他就傻眼了。OpenClaw 则像是一个真的人，他看着图纸，发现孔位变了，照样能找到该拧螺丝的地方。

二、视觉操作的核心：Snapshot 快照系统

OpenClaw 的视觉操作靠的是一套叫Snapshot快照系统。这玩意儿的工作原理特别有意思：

当你让 OpenClaw 操作网页时，它不是去解析 HTML 代码找 id 或 class，而是直接对当前页面进行'视觉扫描'，把所有可交互的元素——按钮、输入框、链接——都编上号。比如发现页面有 20 个可点击的元素，它就会给它们标上 [1]、[2]、[3]…

然后 AI 大模型（比如 Claude 或 GPT）看着这个带编号的截图，理解页面结构，决定点哪个编号。比如它发现'提交'按钮旁边标着 [15]，就会下发指令：'点击元素 15'。

这种方式有几个巨大的好处：

1. 告别元素定位地狱

以前用 Selenium，你得写这种代码：

# 传统方式：找元素找到怀疑人生
submit_button = driver.find_element(By.CSS_SELECTOR, "div.container > button.btn-primary:nth-child(3)")

稍微改个 class 名就报错。现在用 OpenClaw，AI 直接看，管你 class 叫 btn 还是 button-v2-new，只要按钮上写着'提交'，它就能认出来。

2. 自适应界面变化

软件更新了，按钮从左边挪到右边？传统脚本直接崩。OpenClaw 的 AI 会重新截图，重新识别，照样能找到按钮。

3. 跨应用操作

不仅限于浏览器，OpenClaw 还能操作桌面应用。原理类似——通过屏幕截图+OCR 识别，找到'文件'菜单、'保存'按钮，然后模拟鼠标点击。

三、实战：手把手教你让 AI 自动填表

光说不练假把式。下面来个完整的实战：让 OpenClaw 自动帮你填写一个网页表单。假设我们要每天自动登录某个后台，下载昨天的销售数据。

步骤 1：安装与环境准备

OpenClaw 是开源的，基于 Node.js。首先你得有 Node.js 环境，然后用 npm 安装：

# 克隆仓库
git clone https://github.com/openclaw/openclaw.git
cd openclaw
# 安装依赖
npm install

npx playwright install chromium

OpenClaw 视觉操作实战：AI 直接点按钮操作软件

前言

一、OpenClaw 是啥？你的数字长工

二、视觉操作的核心：Snapshot 快照系统

1. 告别元素定位地狱

2. 自适应界面变化

3. 跨应用操作

三、实战：手把手教你让 AI 自动填表

步骤 1：安装与环境准备

更多推荐文章

相关免费在线工具

步骤 2：启动视觉模式

步骤 3：编写自动化脚本

步骤 4：进阶：自动下载报表

四、不止浏览器：桌面软件也能点

五、定时任务：让 AI 自己起床干活

六、数据安全：你的隐私留在本地

七、避坑指南：新手常踩的雷

1. 动态加载的坑

2. 弹窗处理

3. API 额度控制

4. 元素编号会变

八、总结：从'码农'到'监工'

更多推荐文章

相关免费在线工具

OpenClaw 视觉操作实战：AI 直接点按钮操作软件

前言

一、OpenClaw 是啥？你的数字长工

二、视觉操作的核心：Snapshot 快照系统

1. 告别元素定位地狱

2. 自适应界面变化

3. 跨应用操作

三、实战：手把手教你让 AI 自动填表

步骤 1：安装与环境准备

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

步骤 2：启动视觉模式

步骤 3：编写自动化脚本

步骤 4：进阶：自动下载报表

四、不止浏览器：桌面软件也能点

五、定时任务：让 AI 自己起床干活

六、数据安全：你的隐私留在本地

七、避坑指南：新手常踩的雷

1. 动态加载的坑

2. 弹窗处理

3. API 额度控制

4. 元素编号会变

八、总结：从'码农'到'监工'

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具