
在 GitHub 上发现的 CUA(Computer-Use Agents)项目,代表了 AI 自动化领域的一次重要演进。传统的自动化工具往往依赖 CSS 选择器或 API 接口,一旦界面布局变更,脚本便失效。CUA 则通过视觉语言模型直接"看"屏幕,像人一样理解界面并执行操作,这种思路显著提升了自动化方案的鲁棒性。
Computer-Use Agents 核心概念

CUA 是一种能够自主操作计算机界面的 AI 系统。它不依赖预定义的 DOM 结构,而是利用视觉感知能力识别按钮、输入框和菜单。这意味着 AI 可以适应 UI 变化,处理跨应用的多步骤流程。例如,只需自然语言指令"整理发票到表格",AI 即可自动打开软件、识别内容并保存文件,无需编写硬编码规则。
双 SDK 架构设计

CUA 采用分离式设计,包含两个核心 SDK:
- Computer SDK:负责底层控制,提供类似 pyautogui 的 API,支持 Windows、Linux 和 macOS。它屏蔽了不同操作系统的差异,统一处理截图、点击和文本输入。
- Agent SDK:上层代理框架,运行视觉与推理模型。支持模型组合,例如用 GTA-7B 识别 UI 元素,结合 GPT-4 进行规划。
配置示例如下:
from agent import ComputerAgent
agent = ComputerAgent(
model="huggingface-local/HelloKKMe/GTA1-7B+openai/gpt-4o",
tools=[computer]
)
模型生态与支持

框架兼容主流多模态模型,包括 Claude Sonnet/Haiku、OpenAI Computer Use Preview、Qwen3 VL、GLM-V 及 Gemini。部分模型擅长全流程规划,部分专精 UI 检测。此外,内置 Moondream3、OmniParser 等专用 UI 理解模型,能精准定位界面元素。
框架还支持人工在环(human-in-the-loop)模式,当 AI 遇到复杂决策时请求人工协助,确保系统可靠性。
快速上手指南
安装 Agent SDK 非常简单:
pip install cua-agent[all]
初始化代理并运行任务:


