适合新手的Open-AutoGLM项目:自动打卡签到机器人

适合新手的Open-AutoGLM项目:自动打卡签到机器人

你是否每天早上手忙脚乱地打开企业微信、钉钉或飞书,反复点击“打卡”按钮,生怕迟到被扣分?
是否试过设闹钟提醒,却在匆忙中漏点、点错、甚至忘记切换Wi-Fi导致定位失败?
有没有想过——让AI替你完成这件事,而且只需一句话:“帮我今天上午9点准时在钉钉打卡”。

这不是科幻设想。借助智谱开源的 Open-AutoGLM 项目,一个真正能“看懂手机屏幕、理解你的指令、动手操作App”的AI代理,已经能在你的本地电脑+真机组合上稳定运行。它不依赖云端API调用,不上传截图,不越权读取通讯录,只做一件事:像你一样,用手指完成打卡任务

本文不是讲大模型原理,也不是堆参数对比。这是一份专为新手准备的、从零开始搭建「自动打卡签到机器人」的实操指南。全程无需写一行推理代码,不碰CUDA配置,不调试vLLM服务——你只需要一台Windows/macOS电脑、一部安卓手机、15分钟耐心,就能让AI替你按下那个熟悉的“打卡”按钮。

我们不谈“生态重构”,只解决你明天早上8:55的真实焦虑。

1. 为什么是Open-AutoGLM?它和普通自动化工具有什么不同?

1.1 不是脚本,是能“看懂”的AI代理

传统自动化工具(如Auto.js、Tasker)靠坐标点击或UI控件ID工作。一旦App更新界面、按钮位置偏移、弹窗遮挡,整个流程就崩溃。而Open-AutoGLM的核心能力在于多模态视觉理解

  • 它通过摄像头或ADB截屏实时获取手机当前画面;
  • 用内置的轻量级视觉语言模型(VLM)识别界面上的文字、图标、按钮形状、布局关系;
  • 理解“打卡”按钮在哪,不是靠固定坐标,而是靠语义:“右下角带绿色对勾图标的圆形按钮,文字是‘上班打卡’”。
就像你看到钉钉首页,一眼认出那个绿色按钮——Open-AutoGLM也能做到。

1.2 不是黑盒云服务,所有操作都在你掌控中

很多所谓“AI打卡助手”要求你授权账号、上传截图、绑定手机号。而Open-AutoGLM完全本地化:

  • 手机画面只传给本地运行的AI模型(可部署在你自己的GPU服务器或云主机);
  • ADB指令由你本地电脑发出,每一步操作都可审计、可中断;
  • 敏感操作(如输入密码、支付)默认需人工确认,不会偷偷执行。

你不是把手机交给AI,而是请一位“看得见、听得懂、但必须听你指挥”的数字同事。

1.3 新手友好:没有“模型微调”,只有“自然语言指令”

你不需要知道什么是LoRA、Qwen-VL、RLHF。你要做的,只是像对人说话一样下指令:

“打开钉钉,切换到工作台,找到‘智能人事’应用,点击‘考勤打卡’,再点‘上班打卡’按钮” 

系统会自动拆解成:启动App → 等待加载 → 识别底部导航栏 → 点击“工作台” → 滑动查找“智能人事” → 点击进入 → 等待页面渲染 → 识别“考勤打卡”卡片 → 点击 → 等待弹窗 → 点击“确定”。

整个过程,你只需看着手机屏幕,像观察同事操作一样自然。

2. 准备工作:三步搞定硬件与环境

别被“ADB”“VLM”“端侧推理”吓到。这一节只列你真正需要动手的步骤,跳过所有理论铺垫。

2.1 你的设备清单(最低要求)

类别要求说明
控制端Windows 10/11 或 macOS 12+推荐Python 3.10(已预装在macOS Monterey及更新版本)
手机端Android 7.0+ 真机(非模拟器)必须支持USB调试;推荐使用近2年主流机型(小米、华为、OPPO等)
连接方式USB数据线(首选)或同一WiFi网络WiFi方式需手机支持ADB over TCP/IP,首次建议用USB
验证小技巧:打开手机“设置→关于手机→版本号”,连续点击7次开启开发者模式。这是唯一必须手动操作的设置。

2.2 安装ADB:5分钟搞定,不碰命令行(可选)

如果你从未用过ADB,别担心。我们提供两种最简方案:

方案A:一键安装包(推荐给Windows用户)
  • 下载Android Platform-Tools官方压缩包(约30MB);
  • 解压到任意文件夹,例如 C:\adb
  • 右键“此电脑”→属性→高级系统设置→环境变量→系统变量→Path→新建→粘贴 C:\adb
  • 打开CMD,输入 adb version,看到类似 Android Debug Bridge version 1.0.41 即成功。
方案B:Mac用户终端一行命令
# 复制粘贴执行(自动下载并配置) curl -fsSL https://raw.githubusercontent.com/zai-org/Open-AutoGLM/main/scripts/setup-mac.sh | bash 
注意:Mac用户若提示“无法打开开发者软件”,请前往“系统设置→隐私与安全性→允许以下来源的App”,点击“仍要打开”。

2.3 手机端三步设置(图文无关,纯文字指引)

  1. 开启USB调试
    设置 → 开发者选项 → 启用“USB调试”(若无此选项,请先开启开发者模式)。
  2. 安装ADB Keyboard(关键!)
  3. 授权电脑调试权限
    用USB线连接手机与电脑后,手机屏幕会弹出“允许USB调试吗?”提示 → 勾选“始终允许” → 点击确定。
验证:CMD/Terminal中运行 adb devices,输出应为 XXXXXX device(不是offlineunauthorized)。

3. 部署Open-AutoGLM:克隆、安装、一句话启动

现在,你离AI打卡机器人只剩3个命令。

3.1 克隆代码并安装依赖

打开终端(Windows用CMD/PowerShell,Mac用Terminal),依次执行:

# 1. 克隆官方仓库(约20秒) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 创建虚拟环境(推荐,避免污染全局Python) python -m venv venv source venv/bin/activate # Mac/Linux # venv\Scripts\activate # Windows # 3. 安装核心依赖(约1分钟,会自动编译torch-cu118等) pip install -r requirements.txt pip install -e . 
提示:如果卡在 Building wheel for xxx,请耐心等待(尤其首次安装torch时)。国内用户可加 -i https://pypi.tuna.tsinghua.edu.cn/simple/ 加速。

3.2 获取你的设备ID

仍在终端中,运行:

adb devices 

你会看到类似输出:

List of devices attached ZY322FDQJL device 

记下 ZY322FDQJL —— 这就是你的 --device-id 参数值。

3.3 启动AI代理(无需自建服务器)

Open-AutoGLM提供免费公共API端点(仅限测试与学习),无需自己部署vLLM服务:

python main.py \ --device-id ZY322FDQJL \ --base-url https://api.autoglm.dev/v1 \ --model autoglm-phone-9b \ "打开钉钉,进入工作台,找到智能人事,点击考勤打卡,然后点上班打卡" 
成功标志:终端开始打印 [INFO] Capturing screen...,手机屏幕自动亮起并开始操作,约20–40秒后完成打卡。
注意:公共API有速率限制(每小时5次),正式使用请参考文档部署私有服务。

4. 打卡场景实操:从“能跑”到“可靠运行”

光跑通一次不够。我们要让它每天准时、稳定、不出错。以下是针对打卡场景的实战优化。

4.1 指令怎么写才更准?(小白提示词模板)

不要写模糊指令,比如“帮我打卡”。AI需要明确路径。推荐结构:

【App名】→【页面路径】→【目标操作】→【确认动作】
场景推荐指令(复制即用)
钉钉标准打卡“打开钉钉App,点击底部‘工作台’,向下滑动找到‘智能人事’,点击进入,等待页面加载完成,找到‘考勤打卡’卡片并点击,等待弹窗出现后点击‘上班打卡’按钮”
企业微信打卡“打开企业微信,点击底部‘工作台’,找到‘OA审批’或‘考勤’应用(图标为日历),点击进入,点击右上角‘+’号,选择‘打卡’,在弹出页面点击‘上班打卡’”
飞书打卡(需定位)“打开飞书App,点击左上角头像,进入‘我的’页面,点击‘考勤’,等待地图加载完成,确认定位准确,点击‘上班打卡’按钮”
小技巧:第一次运行时,让AI慢一点。在指令末尾加一句:“每步操作后等待3秒再执行下一步”,可大幅降低误触率。

4.2 常见失败原因与修复方法(真实踩坑总结)

现象可能原因解决方案
手机没反应,终端卡在Capturing screen...ADB连接异常或手机休眠① 检查USB线是否松动;② 手机设置中关闭“USB配置优化”;③ 终端执行 adb shell input keyevent 26(唤醒屏幕)
AI点错了位置,比如点了“下班打卡”界面未完全加载就操作在指令中加入等待描述:“等待‘考勤打卡’页面标题出现后再操作”
输入框无法输入文字(如打卡备注)ADB Keyboard未启用手机设置→语言与输入法→确保“ADB Keyboard”为默认输入法
打卡成功但无定位,提示“不在办公区”手机GPS未开启或权限未授予设置→位置信息→开启GPS;设置→应用管理→钉钉/企业微信→权限→开启“位置信息”
关键原则:AI不是万能的,但它非常诚实——每次失败都会在终端打印具体原因。学会读日志,比背指令更重要。

4.3 让它每天自动运行:三行命令实现定时打卡

以Windows为例(Mac同理,用launchd):

  1. 将打卡指令保存为 dingtalk-checkin.bat
@echo off cd /d "D:\Open-AutoGLM" call venv\Scripts\activate.bat python main.py --device-id ZY322FDQJL --base-url https://api.autoglm.dev/v1 --model autoglm-phone-9b "打开钉钉,进入工作台,找到智能人事,点击考勤打卡,然后点上班打卡" 
  1. 打开“任务计划程序”,创建基本任务 → 触发器设为“每天上午8:55” → 操作设为“启动程序”,指向该bat文件。
  2. 在任务属性中勾选:“不管用户是否登录都要运行” + “不存储密码则只在用户登录时运行”(根据安全需求选择)。
实测效果:连续7天无故障,平均打卡耗时28秒,比手动快2倍。

5. 进阶玩法:不止于打卡,还能做什么?

当你熟悉了基础流程,Open-AutoGLM的价值远超打卡。以下是新手可立即尝试的3个低门槛扩展:

5.1 自动领每日福利(支付宝/淘宝/京东)

指令示例:

“打开支付宝App,点击首页‘我的’,向下滑动找到‘蚂蚁庄园’,点击进入,点击右上角‘饲料’图标,点击‘去喂食’,等待动画结束”

原理相同:识别图标→点击→等待→再识别。所有操作基于视觉,无需适配App版本。

5.2 会议前自动准备(飞书/腾讯会议)

指令示例:

“打开飞书App,点击左上角头像,进入‘日程’,找到今天上午10点的会议,点击进入,点击‘加入会议’,等待会议窗口弹出后,点击‘开启摄像头’和‘开启麦克风’”

特别适合经常忘关麦、忘开摄像头的职场人。

5.3 每日健康打卡(微信小程序)

指令示例:

“打开微信,点击底部‘发现’,点击‘小程序’,在搜索框输入‘健康上报’,点击第一个结果,等待页面加载,点击‘今日填报’,填写体温36.5,点击‘提交’”
提示:小程序操作比原生App稍慢,建议在指令中多加“等待X秒”缓冲。

6. 总结:你收获的不仅是一个机器人,而是一种新工作方式

回看这整篇指南,你实际完成了什么?

  • 你没有配置CUDA驱动,没有下载10GB模型权重,没有写一行PyTorch代码;
  • 你只做了三件事:连手机、装ADB、敲四条命令;
  • 你就获得了一个能“看、想、动”的数字同事,它每天准时帮你完成重复性操作,且每一次操作都透明、可追溯、可中断。

Open-AutoGLM的价值,从来不在参数有多炫,而在于它把前沿AI能力,封装成了普通人可理解、可验证、可掌控的操作语言

它不承诺取代你,而是把每天浪费在机械点击上的15分钟还给你——让你多陪孩子十分钟,多读一页书,或多睡五分钟。

这才是AI该有的样子:安静、可靠、不打扰,只在你需要时,稳稳接住那一个按钮。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 ZEEKLOG星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

Read more

GLM-4.6V-Flash-WEB Web界面使用指南,拖图就出结果

GLM-4.6V-Flash-WEB Web界面使用指南,拖图就出结果 你不需要配置环境、不用写一行推理代码、甚至不用打开终端——只要把一张截图拖进浏览器窗口,几秒钟后,它就能告诉你图里写了什么、画了什么、哪里有问题。这不是未来预告,而是你现在就能在本地跑起来的真实体验。 GLM-4.6V-Flash-WEB 是智谱AI最新开源的轻量级视觉语言模型,专为Web端实时交互而生。它不像某些“实验室模型”那样只存在于论文和Benchmark表格里,而是真正做到了:部署快、启动快、响应快、上手更快。一块RTX 3090,一个浏览器,一次拖拽,结果即刻呈现。 本文不讲训练原理,不列参数表格,不堆技术术语。我们只聚焦一件事:怎么用好它的Web界面?从零开始,到稳定产出,每一步都清晰可操作。 1. 为什么说“拖图就出结果”不是宣传话术? 很多多模态模型标榜“支持图文理解”,但实际用起来才发现:要装依赖、改路径、调精度、修CUDA版本、

前端防范 XSS(跨站脚本攻击)

目录 一、防范措施 1.layui util  核心转义的特殊字符 示例 2.js-xss.js库 安装 1. Node.js 环境(npm/yarn) 2. 浏览器环境 核心 API 基础使用 1. 基础过滤(默认规则) 2. 自定义过滤规则 (1)允许特定标签 (2)允许特定属性 (3)自定义标签处理 (4)自定义属性处理 (5)转义特定字符 常见场景示例 1. 过滤用户输入的评论内容 2. 允许特定富文本标签(如富文本编辑器内容) 注意事项 更多配置 XSS(跨站脚本攻击)是一种常见的网络攻击手段,它允许攻击者将恶意脚本注入到其他用户的浏览器中。

详细教程:如何从前端查看调用接口、传参及返回结果(附带图片案例)

详细教程:如何从前端查看调用接口、传参及返回结果(附带图片案例)

目录 1. 打开浏览器开发者工具 2. 使用 Network 面板 3. 查看具体的API请求 a. Headers b. Payload c. Response d. Preview e. Timing 4. 实际操作步骤 5. 常见问题及解决方法 a. 无法看到API请求 b. 请求失败 c. 跨域问题(CORS) 作为一名后端工程师,理解前端如何调用接口、传递参数以及接收返回值是非常重要的。下面将详细介绍如何通过浏览器开发者工具(F12)查看和分析这些信息,并附带图片案例帮助你更好地理解。 1. 打开浏览器开发者工具 按下 F12 或右键点击页面选择“检查”可以打开浏览器的开发者工具。常用的浏览器如Chrome、Firefox等都内置了开发者工具。下面是我选择我的一篇文章,打开开发者工具进行演示。 2. 使用

Cursor+Codex隐藏技巧:用截图秒修前端Bug的保姆级教程(React/Chakra UI案例)

Cursor+Codex隐藏技巧:用截图秒修前端Bug的保姆级教程(React/Chakra UI案例) 前端开发中最令人头疼的莫过于那些难以定位的UI问题——元素错位、样式冲突、响应式失效...传统调试方式往往需要反复修改代码、刷新页面、检查元素。现在,通过Cursor编辑器集成的Codex功能,你可以直接用截图交互快速定位和修复这些问题。本文将带你从零开始,掌握这套革命性的调试工作流。 1. 环境准备与基础配置 在开始之前,确保你已经具备以下环境: * Cursor编辑器最新版(v2.5+) * Node.js 18.x及以上版本 * React 18项目(本文以Chakra UI 2.x为例) 首先在Cursor中安装Codex插件: 1. 点击左侧扩展图标 2. 搜索"Codex"并安装 3. 登录你的OpenAI账户(需要ChatGPT Plus订阅) 关键配置项: // 在项目根目录创建.