适合新手的Open-AutoGLM项目:自动打卡签到机器人

适合新手的Open-AutoGLM项目:自动打卡签到机器人

你是否每天早上手忙脚乱地打开企业微信、钉钉或飞书,反复点击“打卡”按钮,生怕迟到被扣分?
是否试过设闹钟提醒,却在匆忙中漏点、点错、甚至忘记切换Wi-Fi导致定位失败?
有没有想过——让AI替你完成这件事,而且只需一句话:“帮我今天上午9点准时在钉钉打卡”。

这不是科幻设想。借助智谱开源的 Open-AutoGLM 项目,一个真正能“看懂手机屏幕、理解你的指令、动手操作App”的AI代理,已经能在你的本地电脑+真机组合上稳定运行。它不依赖云端API调用,不上传截图,不越权读取通讯录,只做一件事:像你一样,用手指完成打卡任务

本文不是讲大模型原理,也不是堆参数对比。这是一份专为新手准备的、从零开始搭建「自动打卡签到机器人」的实操指南。全程无需写一行推理代码,不碰CUDA配置,不调试vLLM服务——你只需要一台Windows/macOS电脑、一部安卓手机、15分钟耐心,就能让AI替你按下那个熟悉的“打卡”按钮。

我们不谈“生态重构”,只解决你明天早上8:55的真实焦虑。

1. 为什么是Open-AutoGLM?它和普通自动化工具有什么不同?

1.1 不是脚本,是能“看懂”的AI代理

传统自动化工具(如Auto.js、Tasker)靠坐标点击或UI控件ID工作。一旦App更新界面、按钮位置偏移、弹窗遮挡,整个流程就崩溃。而Open-AutoGLM的核心能力在于多模态视觉理解

  • 它通过摄像头或ADB截屏实时获取手机当前画面;
  • 用内置的轻量级视觉语言模型(VLM)识别界面上的文字、图标、按钮形状、布局关系;
  • 理解“打卡”按钮在哪,不是靠固定坐标,而是靠语义:“右下角带绿色对勾图标的圆形按钮,文字是‘上班打卡’”。
就像你看到钉钉首页,一眼认出那个绿色按钮——Open-AutoGLM也能做到。

1.2 不是黑盒云服务,所有操作都在你掌控中

很多所谓“AI打卡助手”要求你授权账号、上传截图、绑定手机号。而Open-AutoGLM完全本地化:

  • 手机画面只传给本地运行的AI模型(可部署在你自己的GPU服务器或云主机);
  • ADB指令由你本地电脑发出,每一步操作都可审计、可中断;
  • 敏感操作(如输入密码、支付)默认需人工确认,不会偷偷执行。

你不是把手机交给AI,而是请一位“看得见、听得懂、但必须听你指挥”的数字同事。

1.3 新手友好:没有“模型微调”,只有“自然语言指令”

你不需要知道什么是LoRA、Qwen-VL、RLHF。你要做的,只是像对人说话一样下指令:

“打开钉钉,切换到工作台,找到‘智能人事’应用,点击‘考勤打卡’,再点‘上班打卡’按钮” 

系统会自动拆解成:启动App → 等待加载 → 识别底部导航栏 → 点击“工作台” → 滑动查找“智能人事” → 点击进入 → 等待页面渲染 → 识别“考勤打卡”卡片 → 点击 → 等待弹窗 → 点击“确定”。

整个过程,你只需看着手机屏幕,像观察同事操作一样自然。

2. 准备工作:三步搞定硬件与环境

别被“ADB”“VLM”“端侧推理”吓到。这一节只列你真正需要动手的步骤,跳过所有理论铺垫。

2.1 你的设备清单(最低要求)

类别要求说明
控制端Windows 10/11 或 macOS 12+推荐Python 3.10(已预装在macOS Monterey及更新版本)
手机端Android 7.0+ 真机(非模拟器)必须支持USB调试;推荐使用近2年主流机型(小米、华为、OPPO等)
连接方式USB数据线(首选)或同一WiFi网络WiFi方式需手机支持ADB over TCP/IP,首次建议用USB
验证小技巧:打开手机“设置→关于手机→版本号”,连续点击7次开启开发者模式。这是唯一必须手动操作的设置。

2.2 安装ADB:5分钟搞定,不碰命令行(可选)

如果你从未用过ADB,别担心。我们提供两种最简方案:

方案A:一键安装包(推荐给Windows用户)
  • 下载Android Platform-Tools官方压缩包(约30MB);
  • 解压到任意文件夹,例如 C:\adb
  • 右键“此电脑”→属性→高级系统设置→环境变量→系统变量→Path→新建→粘贴 C:\adb
  • 打开CMD,输入 adb version,看到类似 Android Debug Bridge version 1.0.41 即成功。
方案B:Mac用户终端一行命令
# 复制粘贴执行(自动下载并配置) curl -fsSL https://raw.githubusercontent.com/zai-org/Open-AutoGLM/main/scripts/setup-mac.sh | bash 
注意:Mac用户若提示“无法打开开发者软件”,请前往“系统设置→隐私与安全性→允许以下来源的App”,点击“仍要打开”。

2.3 手机端三步设置(图文无关,纯文字指引)

  1. 开启USB调试
    设置 → 开发者选项 → 启用“USB调试”(若无此选项,请先开启开发者模式)。
  2. 安装ADB Keyboard(关键!)
  3. 授权电脑调试权限
    用USB线连接手机与电脑后,手机屏幕会弹出“允许USB调试吗?”提示 → 勾选“始终允许” → 点击确定。
验证:CMD/Terminal中运行 adb devices,输出应为 XXXXXX device(不是offlineunauthorized)。

3. 部署Open-AutoGLM:克隆、安装、一句话启动

现在,你离AI打卡机器人只剩3个命令。

3.1 克隆代码并安装依赖

打开终端(Windows用CMD/PowerShell,Mac用Terminal),依次执行:

# 1. 克隆官方仓库(约20秒) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 创建虚拟环境(推荐,避免污染全局Python) python -m venv venv source venv/bin/activate # Mac/Linux # venv\Scripts\activate # Windows # 3. 安装核心依赖(约1分钟,会自动编译torch-cu118等) pip install -r requirements.txt pip install -e . 
提示:如果卡在 Building wheel for xxx,请耐心等待(尤其首次安装torch时)。国内用户可加 -i https://pypi.tuna.tsinghua.edu.cn/simple/ 加速。

3.2 获取你的设备ID

仍在终端中,运行:

adb devices 

你会看到类似输出:

List of devices attached ZY322FDQJL device 

记下 ZY322FDQJL —— 这就是你的 --device-id 参数值。

3.3 启动AI代理(无需自建服务器)

Open-AutoGLM提供免费公共API端点(仅限测试与学习),无需自己部署vLLM服务:

python main.py \ --device-id ZY322FDQJL \ --base-url https://api.autoglm.dev/v1 \ --model autoglm-phone-9b \ "打开钉钉,进入工作台,找到智能人事,点击考勤打卡,然后点上班打卡" 
成功标志:终端开始打印 [INFO] Capturing screen...,手机屏幕自动亮起并开始操作,约20–40秒后完成打卡。
注意:公共API有速率限制(每小时5次),正式使用请参考文档部署私有服务。

4. 打卡场景实操:从“能跑”到“可靠运行”

光跑通一次不够。我们要让它每天准时、稳定、不出错。以下是针对打卡场景的实战优化。

4.1 指令怎么写才更准?(小白提示词模板)

不要写模糊指令,比如“帮我打卡”。AI需要明确路径。推荐结构:

【App名】→【页面路径】→【目标操作】→【确认动作】
场景推荐指令(复制即用)
钉钉标准打卡“打开钉钉App,点击底部‘工作台’,向下滑动找到‘智能人事’,点击进入,等待页面加载完成,找到‘考勤打卡’卡片并点击,等待弹窗出现后点击‘上班打卡’按钮”
企业微信打卡“打开企业微信,点击底部‘工作台’,找到‘OA审批’或‘考勤’应用(图标为日历),点击进入,点击右上角‘+’号,选择‘打卡’,在弹出页面点击‘上班打卡’”
飞书打卡(需定位)“打开飞书App,点击左上角头像,进入‘我的’页面,点击‘考勤’,等待地图加载完成,确认定位准确,点击‘上班打卡’按钮”
小技巧:第一次运行时,让AI慢一点。在指令末尾加一句:“每步操作后等待3秒再执行下一步”,可大幅降低误触率。

4.2 常见失败原因与修复方法(真实踩坑总结)

现象可能原因解决方案
手机没反应,终端卡在Capturing screen...ADB连接异常或手机休眠① 检查USB线是否松动;② 手机设置中关闭“USB配置优化”;③ 终端执行 adb shell input keyevent 26(唤醒屏幕)
AI点错了位置,比如点了“下班打卡”界面未完全加载就操作在指令中加入等待描述:“等待‘考勤打卡’页面标题出现后再操作”
输入框无法输入文字(如打卡备注)ADB Keyboard未启用手机设置→语言与输入法→确保“ADB Keyboard”为默认输入法
打卡成功但无定位,提示“不在办公区”手机GPS未开启或权限未授予设置→位置信息→开启GPS;设置→应用管理→钉钉/企业微信→权限→开启“位置信息”
关键原则:AI不是万能的,但它非常诚实——每次失败都会在终端打印具体原因。学会读日志,比背指令更重要。

4.3 让它每天自动运行:三行命令实现定时打卡

以Windows为例(Mac同理,用launchd):

  1. 将打卡指令保存为 dingtalk-checkin.bat
@echo off cd /d "D:\Open-AutoGLM" call venv\Scripts\activate.bat python main.py --device-id ZY322FDQJL --base-url https://api.autoglm.dev/v1 --model autoglm-phone-9b "打开钉钉,进入工作台,找到智能人事,点击考勤打卡,然后点上班打卡" 
  1. 打开“任务计划程序”,创建基本任务 → 触发器设为“每天上午8:55” → 操作设为“启动程序”,指向该bat文件。
  2. 在任务属性中勾选:“不管用户是否登录都要运行” + “不存储密码则只在用户登录时运行”(根据安全需求选择)。
实测效果:连续7天无故障,平均打卡耗时28秒,比手动快2倍。

5. 进阶玩法:不止于打卡,还能做什么?

当你熟悉了基础流程,Open-AutoGLM的价值远超打卡。以下是新手可立即尝试的3个低门槛扩展:

5.1 自动领每日福利(支付宝/淘宝/京东)

指令示例:

“打开支付宝App,点击首页‘我的’,向下滑动找到‘蚂蚁庄园’,点击进入,点击右上角‘饲料’图标,点击‘去喂食’,等待动画结束”

原理相同:识别图标→点击→等待→再识别。所有操作基于视觉,无需适配App版本。

5.2 会议前自动准备(飞书/腾讯会议)

指令示例:

“打开飞书App,点击左上角头像,进入‘日程’,找到今天上午10点的会议,点击进入,点击‘加入会议’,等待会议窗口弹出后,点击‘开启摄像头’和‘开启麦克风’”

特别适合经常忘关麦、忘开摄像头的职场人。

5.3 每日健康打卡(微信小程序)

指令示例:

“打开微信,点击底部‘发现’,点击‘小程序’,在搜索框输入‘健康上报’,点击第一个结果,等待页面加载,点击‘今日填报’,填写体温36.5,点击‘提交’”
提示:小程序操作比原生App稍慢,建议在指令中多加“等待X秒”缓冲。

6. 总结:你收获的不仅是一个机器人,而是一种新工作方式

回看这整篇指南,你实际完成了什么?

  • 你没有配置CUDA驱动,没有下载10GB模型权重,没有写一行PyTorch代码;
  • 你只做了三件事:连手机、装ADB、敲四条命令;
  • 你就获得了一个能“看、想、动”的数字同事,它每天准时帮你完成重复性操作,且每一次操作都透明、可追溯、可中断。

Open-AutoGLM的价值,从来不在参数有多炫,而在于它把前沿AI能力,封装成了普通人可理解、可验证、可掌控的操作语言

它不承诺取代你,而是把每天浪费在机械点击上的15分钟还给你——让你多陪孩子十分钟,多读一页书,或多睡五分钟。

这才是AI该有的样子:安静、可靠、不打扰,只在你需要时,稳稳接住那一个按钮。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 ZEEKLOG星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

Read more

Git 提交信息的规范化简写格式

Git 提交信息的规范化简写格式

你想了解的是 Git 提交信息的规范化简写格式(也常被称为 Conventional Commits 规范),除了 feat、fix、refactor 之外,还有很多不同类型的前缀可以让提交信息更清晰、更有语义。 完整的规范提交前缀及含义 以下是业界通用的 Conventional Commits 规范中常用的前缀,按使用场景分类,每个前缀都有明确的语义: 前缀中文含义使用场景举例feat新增功能feat: 新增商品详情页分享功能fix修复 Bugfix: 修复移动端下拉刷新数据重复的问题refactor代码重构(无功能变更)refactor: 重构订单列表组件,优化代码结构docs文档修改docs: 更新 README 中的接口使用说明style代码格式调整(无逻辑变更)style: 格式化代码缩进,修正变量命名规范test测试相关test: 为用户登录接口添加单元测试chore琐碎工作(构建/工具等)chore: 升级依赖包 axios 到 1.6.0 版本perf性能优化perf: 优化商品列表查询 SQL,提升接口响应速度build构建相关(

By Ne0inhk
轮腿机器人代码调试补充

轮腿机器人代码调试补充

* @Author: 星夜雨夜 * @brief: 轮腿基础代码编写调试补充,移植自达妙开源代码 * @attention:笔者默认读者已经熟练掌握机甲大师RoboMaster c型开发板例程代码的底盘代码和INS_task.c陀螺仪代码、熟练掌握各电机can协议和遥控器dbus协议。默认读者已能看懂轮腿圣经和玺佬的五连杆运动学解算与VMC。建议读者仔细研读轮腿圣经3~5遍,边看MATLAB文件和达妙开源代码,掌握轮腿调试和编写大致思路。一定要注意各状态变量的单位和正负号是否正确,轮腿调试过程中,最难之处在于极性是否正确。本车所有电机均为逆时针旋转为正方向。 !!!强烈建议读者在开发轮腿之前,先运用LQR算法完成一阶倒立摆的平衡小车(即板凳模型)的实现 !!!如果时间紧,其实完全可以不搞仿真,直接实机开调。仿真不疯,实物不一定不疯;但实物疯,仿真必疯。 调试成果展示视频链接(抖音):轮腿机器人 一阶倒立摆平衡小车参考资料: 1.本科毕设 轮腿式双足机器人 开源文件演示_哔哩哔哩_bilibili(资料在视频评论区) 2.达妙平衡小车开源:[达妙科技开源系列-平衡小车] 第一弹_哔哩

By Ne0inhk
Rokid AR眼镜开发入门:构建智能演讲提词器Android应用

Rokid AR眼镜开发入门:构建智能演讲提词器Android应用

文章目录 * 一、前言 * 二、项目介绍 * 2.1、项目背景 * 2.2、本项目整体思路 * 三、案例开发 * 3.1、申请开发者 * 3.2、Clone RokidSDKDemoKotlin 项目 * 3.3、集成 Rokid Mobile SDK * 3.4、UI 以及眼镜侧渲染 * 四、优化与一些调试经验 * 五、个人总结 一、前言 各位大家好,我是开发者Bluetata,在数字化浪潮席卷全球的当下,增强现实(AR)技术正悄然重塑我们的工作与生活方式。从虚拟试衣到工业远程协作,AR眼镜以其轻便、沉浸的特性,成为连接现实与数字世界的桥梁。其中,Rokid作为AR领域的先锋品牌,其智能眼镜系列(

By Ne0inhk

机器人系统架构十年演进典型架构对比

机器人系统架构十年演进典型架构对比 2015-2025年,机器人系统架构完成了从硬件绑定紧耦合单机架构→模块化分布式松耦合架构→云边端一体化云原生架构→具身原生端云协同通用架构的四次代际跃迁。本文聚焦每个阶段的行业标杆典型架构,从核心设计、全栈维度、优劣势、适用场景做横向+纵向深度对比,清晰还原十年间架构的本质变革与技术迭代逻辑。 一、四大阶段核心典型架构总览对比表 本表覆盖十年间四个演进阶段的行业公认标杆架构,从全栈技术维度做横向对比,是架构演进的核心浓缩。 演进阶段2015-2017 萌芽期2018-2020 起步期2021-2023 成熟期2024-2025 爆发期核心架构范式硬件绑定的单机嵌入式紧耦合架构分层模块化分布式松耦合架构云边端三级协同云原生全栈架构具身原生端云协同软硬一体化架构行业标杆典型架构1. 发那科30iB工业机器人闭源架构 2. ROS 1 Noetic中心化开源架构1. ROS 2 Dashing/Eloquent分布式架构 2. 海康/极智嘉AMR模块化架构1. 华为RoboOS V1.0云边端架构 2. 新松SRCS数字孪生原生架构1. 华

By Ne0inhk