PyAutoGUI：Python 桌面自动化框架详解

Ne0inhk

23 Mar 2026 — 7 min read

一、PyAutoGUI 核心介绍

PyAutoGUI 是一款跨平台（支持 Windows、macOS、Linux）的 Python 桌面自动化库，能够模拟用户的鼠标移动、点击、滚轮操作和键盘输入，还支持屏幕截图、图像识别定位等功能，广泛用于重复性桌面操作自动化（如表单填写、软件操作、批量处理等）。

二、安装步骤

直接通过 pip 命令安装，命令简洁无复杂依赖：

pip install pyautogui

补充：若安装失败（如 macOS 需额外依赖），可参考官方文档适配系统环境，Windows 系统通常可直接安装成功。

三、核心功能详解

自动获取当前鼠标位置：

import pyautogui import time try: while True: x, y = pyautogui.position() #获得鼠标所在位置 print(x,y) #打印当前鼠标所处位置 time.sleep(1) except KeyboardInterrupt: print('\nExit.')

（一）鼠标操作：模拟用户鼠标行为

PyAutoGUI 提供了完整的鼠标模拟接口，核心包括移动、点击、拖拽等，所有操作均基于屏幕坐标系统（屏幕左上角为原点 (0, 0)，向右为 x 轴正方向，向下为 y 轴正方向）。

1. 鼠标移动

基础移动：将鼠标从当前位置移动到指定坐标 (x, y)

import pyautogui # duration：移动耗时（秒），可选参数，默认瞬间移动 pyautogui.moveTo(x=100, y=200, duration=0.5)

相对移动：基于当前鼠标位置，偏移指定像素（dx 为 x 轴偏移，dy 为 y 轴偏移）

# 向右移动 50 像素，向下移动 30 像素，耗时 0.3 秒 pyautogui.moveRel(dx=50, dy=30, duration=0.3)

2. 鼠标点击

基础点击：在指定坐标执行鼠标左键单击

# 在 (100, 200) 位置单击左键，duration 为移动到目标位置的耗时 pyautogui.click(x=100, y=200, duration=0.2)

指定按键点击：支持左键（left）、右键（right）、中键（middle）

# 右键单击 pyautogui.click(x=100, y=200, button='right', duration=0.2) # 中键单击 pyautogui.click(x=100, y=200, button='middle', duration=0.2)

双击/三击：快速执行多次点击

# 左键双击 pyautogui.doubleClick(x=100, y=200, duration=0.2) # 左键三击 pyautogui.tripleClick(x=100, y=200, duration=0.2)

3. 鼠标拖拽

模拟鼠标按住并拖动的行为，常用于文件拖拽、窗口调整等场景：

# 从 (x1, y1) 拖拽到 (x2, y2)，按住左键拖拽 pyautogui.dragTo(x=300, y=400, duration=0.8, button='left') # 相对拖拽：基于当前位置偏移拖拽 pyautogui.dragRel(dx=100, dy=50, duration=0.5, button='left')

4. 鼠标滚轮

模拟滚轮滚动行为，clicks 参数指定滚动幅度（正数向上滚，负数向下滚）：

# 向下滚动 5 格（负数表示向下） pyautogui.scroll(clicks=-5, x=100, y=200) # 向上滚动 3 格（正数表示向上） pyautogui.scroll(clicks=3, x=100, y=200)

（二）键盘操作：模拟输入与快捷键

1. 普通文本输入

使用 typewrite() 方法输入字符串，支持指定输入间隔（模拟人工输入速度）：

# 直接输入文本 pyautogui.typewrite("Hello, PyAutoGUI!") # 带间隔输入（每个字符间隔 0.2 秒） pyautogui.typewrite("Hello, PyAutoGUI!", interval=0.2)

2. 特殊按键输入

对于回车键、空格键、快捷键等特殊按键，需使用按键名称（封装在 PyAutoGUI 中），核心方法：

press()：单次按下并释放某个按键
keyDown()：按住某个按键不释放
keyUp()：释放按住的按键

# 单个特殊按键：按下并释放回车键 pyautogui.press('enter') # 组合快捷键：Ctrl + C（复制） pyautogui.keyDown('ctrl') pyautogui.press('c') pyautogui.keyUp('ctrl') # 简化组合快捷键：使用 hotkey() 方法（推荐） pyautogui.hotkey('ctrl', 'c')  # 复制 pyautogui.hotkey('ctrl', 'v')  # 粘贴 pyautogui.hotkey('ctrl', 'a')  # 全选

常用特殊按键名称：enter（回车）、space（空格）、backspace（删除）、tab（制表符）、shift、ctrl、alt 等。

（三）屏幕与图像识别：定位目标元素

1. 屏幕基础信息获取

获取屏幕分辨率（用于确定坐标范围）：

# 获取屏幕宽度和高度 screen_width, screen_height = pyautogui.size() print(f"屏幕分辨率：{screen_width} × {screen_height}") # 获取当前鼠标位置坐标 mouse_x, mouse_y = pyautogui.position() print(f"当前鼠标位置：({mouse_x}, {mouse_y})")

2. 图像定位：查找屏幕上的目标图像

PyAutoGUI 支持通过目标图像（如按钮截图、图标截图），自动查找其在屏幕上的坐标，核心方法 locateOnScreen()。

步骤说明：

先截取目标元素的截图（保存为 PNG 格式，推荐使用截图工具精准截取）
使用 locateOnScreen() 查找图像位置，返回目标区域的坐标和尺寸
通过 center() 方法获取目标区域的中心坐标（便于点击等操作）

import pyautogui import time # 等待 3 秒，预留时间切换到目标屏幕 time.sleep(3) try:     # 查找目标图像（image.png 为目标截图路径）     # confidence：匹配精度（0-1，默认 1，降低精度可提高查找成功率，需安装 opencv-python 支持）     target_location = pyautogui.locateOnScreen('image.png', confidence=0.8)     if target_location:         # 获取目标图像的中心坐标         target_center = pyautogui.center(target_location)         print(f"目标图像位置：{target_location}，中心坐标：{target_center}")         # 点击目标中心         pyautogui.click(target_center.x, target_center.y, duration=0.2)     else:         print("未找到目标图像") except Exception as e:     print(f"查找失败：{e}")

注意：使用 confidence 参数时，需额外安装 opencv-python：pip install opencv-python

3. 屏幕截图

# 截取整个屏幕并保存为文件 pyautogui.screenshot('full_screen.png') # 截取指定区域屏幕（x1, y1, 宽度, 高度） pyautogui.screenshot('partial_screen.png', region=(100, 100, 300, 200))

（四）安全机制：防止自动化失控

PyAutoGUI 提供了关键的安全保护机制，避免自动化操作失控（如鼠标移到屏幕边缘无法找回、无限循环操作等）：

1. 故障安全触发

默认开启：当鼠标移动到屏幕左上角（坐标 (0, 0)）时，会立即抛出 FailSafeException 异常，终止所有自动化操作：

# 若操作失控，快速将鼠标移到屏幕左上角即可停止程序 try:     while True:         pyautogui.moveRel(10, 0, duration=0.1) except pyautogui.FailSafeException:     print("故障安全机制触发，程序终止")

2. 操作延迟

通过 PAUSE 属性设置所有 PyAutoGUI 操作的默认间隔时间（秒），便于观察操作过程，也可防止操作过快导致程序异常：

# 设置所有操作间隔 0.5 秒 pyautogui.PAUSE = 0.5

四、实战示例：简单自动化操作

import pyautogui import time # 安全设置 pyautogui.PAUSE = 0.5  # 操作间隔 0.5 秒 pyautogui.FAILSAFE = True  # 开启故障安全机制 # 1. 等待 5 秒，预留时间打开记事本 print("5 秒后开始操作，请打开记事本...") time.sleep(5) # 2. 输入文本 pyautogui.typewrite("Python 自动化 - PyAutoGUI 实战", interval=0.1) # 3. 换行 pyautogui.press('enter') # 4. 输入第二行文本 pyautogui.typewrite("这是一个简单的自动化演示", interval=0.1) # 5. 全选文本（Ctrl + A） pyautogui.hotkey('ctrl', 'a') # 6. 复制文本（Ctrl + C） pyautogui.hotkey('ctrl', 'c') # 7. 弹窗提示操作完成 pyautogui.alert("自动化操作完成！")

SDWebImage 在 Flutter 中的使用：通过插件桥接

SDWebImage 在 Flutter 中的使用：通过插件桥接关键词：SDWebImage、Flutter插件、跨平台桥接、MethodChannel、图片加载缓存摘要：本文将带你探索如何在 Flutter 中通过插件桥接技术调用 iOS 原生的 SDWebImage 库。我们会从背景需求出发，用“跨国快递”的比喻解释桥接原理，逐步拆解核心概念，结合代码实战演示如何实现图片加载与缓存，并总结常见问题与未来优化方向。即使你是 Flutter 新手，也能轻松理解跨平台桥接的底层逻辑！背景介绍目的和范围在 Flutter 开发中，图片加载是高频需求。虽然 Flutter 自带 cached_network_image 等第三方库，但在 iOS 平台上，原生的 SDWebImage 经过多年优化，在缓存策略、

实战：手写一个通用Web层鉴权注解，解决水平权限漏洞

实战：手写一个通用Web层鉴权注解，解决水平权限漏洞 * 一、背景：一次渗透测试引发的改造 * 二、需求分析：如何高效修复 * 三、业务模型：用户-公司授权关系 * 四、整体架构设计 * 五、代码实现：一步一步来 * 5.1 注解定义 * 5.2 权限管理服务 * 5.3 AOP切面：核心逻辑 * 六、使用示例 * 6.1 场景1：最简单的用法 * 6.2 场景2：对象属性 * 6.3 场景3：批量操作 * 6.4 场景4：嵌套属性 * 6.5 场景5：类级别默认配置 * 七、

Flutter 三方库 arcade 的鸿蒙化适配指南 - 实现高性能的端侧 Web 框架、支持轻量级 HTTP 路由分发与服务端逻辑集成

欢迎加入开源鸿蒙跨平台社区：https://openharmonycrossplatform.ZEEKLOG.net Flutter 三方库 arcade 的鸿蒙化适配指南 - 实现高性能的端侧 Web 框架、支持轻量级 HTTP 路由分发与服务端逻辑集成前言在进行 Flutter for OpenHarmony 的全栈式开发或特定的边缘计算场景，我们有时需要在鸿蒙应用内部直接启动一个功能完备但又极其轻量的单文件 Web 服务器。arcade 是一个主打微核心设计的 Dart 服务端框架。它能让你在鸿蒙真机上以最少的内存占用，快速运行起一套处理 REST 请求的逻辑中心。本文将指导大家如何在鸿蒙端利用该框架构建微服务。一、原理解析 / 概念介绍 1.1 基础原理 arcade 采用了非阻塞式的 IO 事件循环架构。它通过直接包装 dart:io 的 HttpServer，提供了一套高度流式（

GLM-4.6V-Flash-WEB适用于哪些类型的图像问答场景？

GLM-4.6V-Flash-WEB适用于哪些类型的图像问答场景？在如今的智能交互时代，用户不再满足于“上传图片 → 返回标签”的简单视觉识别模式。越来越多的应用场景要求系统不仅能“看见”图像内容，还要能“理解”并“回答”复杂问题——比如学生对着课本截图提问电路原理，客服系统自动解析用户发来的产品照片，或是企业从扫描报表中提取关键数据。正是在这样的需求推动下，多模态大模型正从实验室走向真实业务前线。而 GLM-4.6V-Flash-WEB 的出现，恰好填补了高性能与可落地之间的空白：它不像某些重型模型那样动辄需要A100集群支撑，也不像传统OCR+规则引擎那样缺乏语义推理能力。这款由智谱AI推出的轻量化视觉语言模型，专为Web服务和高并发场景设计，在毫秒级响应与较强图文理解之间找到了极佳平衡点。从一张菜单说起：什么是真正的图像问答？设想这样一个场景：你走进一家餐厅，拍下纸质菜单上传到某个AI助手，然后问：“最贵的菜是什么？” 如果系统只能做OCR，它会返回一串文字列表；如果只是图像分类，可能告诉你“这是一张食物相关的图”。但真正有用的回应应该是： “牛排套餐，价格为

一、PyAutoGUI 核心介绍

Read more

SDWebImage 在 Flutter 中的使用：通过插件桥接

实战：手写一个通用Web层鉴权注解，解决水平权限漏洞

Flutter 三方库 arcade 的鸿蒙化适配指南 - 实现高性能的端侧 Web 框架、支持轻量级 HTTP 路由分发与服务端逻辑集成

GLM-4.6V-Flash-WEB适用于哪些类型的图像问答场景？