Selenium Web 自动化测试入门与实战指南

Selenium 简介

Selenium 是一个强大的开源框架，主要用于 Web 自动化测试。虽然名字听起来像汽车品牌，但在技术领域，它是模拟人类操作网页的核心工具。

简单来说，Selenium 的主要工作是模拟人类在网页上的各种操作——比如点击按钮、输入文字、提交表单，甚至还能抓取页面截图，帮你检查网站的功能和性能。

它支持多种编程语言（Python、Java、C# 等），并且能在各种浏览器（Chrome、Firefox、Edge 等）上运行。

Selenium 主要能帮你做些啥？

自动化测试： 将你手动测试的流程，转化为一行行代码，让电脑替你跑。
性能测试： 测量网页加载需要多久，响应速度怎么样，帮你找出短板。
页面截图： 自动截取网页不同状态的图片，帮你生成漂亮的测试报告，或者在出现问题时，留下证据。

总而言之，如果你想成为 Web 应用测试领域的效率达人，Selenium 绝对是你不可或缺的武器库。

Selenium vs Appium

很多人在学习自动化测试时，会遇到 Selenium 和 Appium 这对'难兄难弟'。它们名字听起来有点像，都能做自动化，但侧重点完全不同！

相同点：

血缘关系近： Appium 本质上是基于 Selenium 的思想进行二次开发的，所以它们在某些方面（比如定位元素的方式，click、send_keys 等操作）是挺像的。

不同点：

特性	Selenium	Appium
应用领域	Web 应用 (浏览器里的网页)	移动 App (手机上的 APP )
底层技术	浏览器驱动 (如 Chrome Driver)	移动原生 API (iOS: XCUITest, Android: UiAutomator)
环境配置	需要安装不同浏览器的 Driver	需要模拟器/真机，配置 SDK 等
通信协议	HTTP 协议	WebDriver 协议

用大白话来说：

Selenium 就像一个'浏览器驾驶员'，专门负责驾驶浏览器，在网页上进行各种操作。
Appium 就像一个'手机应用司机'，专门驾驶手机 App，在屏幕上点点划划。

所以，看你的测试对象是网站还是 App，就能决定用谁啦！

Selenium 工作原理

你有没有好奇过，为什么你写的一行行代码，Selenium 就能让浏览器乖乖执行？这背后有一套精密的工作流程！

发号施令： 你的自动化测试脚本（Selenium Client）会启动一个 WebDriver 服务。
传达指令： WebDriver 会启动对应的浏览器驱动程序（比如 Chrome Driver）。
建立连接： 浏览器驱动程序会打开浏览器，并作为 WebDriver 的远程服务器，监听一个特定的端口。
沟通桥梁： 所有的 Selenium 操作（访问网址、查找元素等），都会通过 WebDriver，以 HTTP 请求的方式发送到浏览器驱动程序。
执行动作： 浏览器驱动程序接收到请求后，解析指令，并指挥浏览器去执行相应的动作（比如找到一个按钮并点击）。

定位方式	描述	示例写法（代码中）
`By.ID`	根据元素的 `id` 属性定位	`driver.find_element(By.ID, "some_id")`
`By.CLASS_NAME`	根据元素的 `class` 属性定位	`driver.find_element(By.CLASS_NAME, "some_class")`
`By.NAME`	根据元素的 `name` 属性定位	`driver.find_element(By.NAME, "some_name")`
`By.LINK_TEXT`	根据链接的完整文本定位 (`<a>` 标签)	`driver.find_element(By.LINK_TEXT, "点击这里")`
`By.PARTIAL_LINK_TEXT`	根据链接的部分文本定位 (`<a>` 标签)	`driver.find_element(By.PARTIAL_LINK_TEXT, "这里")`
`By.TAG_NAME`	根据元素的标签名定位 (如 `<div>`, `<p>`)	`driver.find_element(By.TAG_NAME, "div")`
`By.XPATH`	强大的 XML 路径语言，万能定位！	`driver.find_element(By.XPATH, "//div[@class='hotwords']/a[1]")`
`By.CSS_SELECTOR`	CSS 选择器，也是非常常用的定位方式	`driver.find_element(By.CSS_SELECTOR, "div.hotwords > a:first-child")`

方法	作用	示例 (已找到元素 `element`)
`click()`	点击	`element.click()`
`send_keys("文本")`	输入文本	`element.send_keys("你好，Selenium！")`
`clear()`	清空输入框内容	`element.clear()`
`.text`	获取元素的可见文本	`print(element.text)`
`get_attribute("属性名")`	获取元素的指定属性值	`print(element.get_attribute("href"))` (获取链接的 URL)
`get_screenshot_as_file("路径.png")`	截取页面截图并保存	`driver.get_screenshot_as_file("screenshot.png")`
`get_screenshot_as_png()`	截取页面截图，返回 bytes	`png_data = driver.get_screenshot_as_png()`

参数	作用
`--user-agent=""`	设置请求头的 User-Agent (模拟不同浏览器身份)
`--window-size=1366,768`	设置浏览器窗口大小 (分辨率)
`--headless`	无界面运行 (跑脚本时看不见浏览器窗口)
`--start-maximized`	最大化运行 (直接全屏，方便查看)
`--incognito`	隐身模式 (不保存历史记录和 cookies)
`--disable-javascript`	禁用 JavaScript (某些情况下需要)

Selenium Web 自动化测试入门与实战指南

Selenium 简介

Selenium vs Appium

Selenium 工作原理

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

自动化测试实战剧本

环境搭建

基础十八般武艺

1. 浏览器操作函数

启动浏览器 (注意：Firefox 首字母要大写！)

driver = webdriver.Firefox()

启动 Chrome

1. 最大化浏览器窗口

2. 访问目标网址 (URL 必须以 http/https 开头)

3. 后退/前进

4. 刷新浏览器

5. 关闭当前窗口

driver.quit() # 退出所有窗口，结束 WebDriver 会话 (更常用！)

2. 定位方式

3. 元素属性查看

4. 操作方法

5. 等待函数

等待最多 10 秒，每 0.5 秒检查一次条件

等待直到某个元素 presence_of_element_located (出现)

等待直到某个元素 visibility_of_element_located (可见)

等待直到某个元素 element_to_be_clickable (可点击)

浏览器启动参数

chrome_options.add_argument('--headless')

chrome_options.add_argument('--window-size=1366,768')

XPath 定位

找到 id 为 'word' 的 input 元素并输入

找到 class 为 'hotwords' 的 div 下的第一个 a 标签

CSS 定位

找到 class 为 'hotwords' 的 div 下的第一个 a 标签

找到 id 为 'username' 的 input 标签

页面操作

1. 切换框架（Frame）

进入框架 (根据 id, name, index, 或 XPath 定位)

通过 id

通过索引 (第一个 iframe)

在框架内操作元素

跳出框架 (回到主页面)

driver.switch_to.parent_frame() # 跳到上一级框架 (如果有多层嵌套)

2. 切换窗口

获取当前窗口的句柄 (唯一标识)

打开新窗口 (比如点击一个链接)

等待新窗口出现

获取所有窗口的句柄 (是个列表)

切换到新打开的窗口 (通常是列表的最后一个)

找到新窗口就跳出循环

在新窗口进行操作

切回原窗口

3. 鼠标悬停 (Hover)

找到需要悬停的元素

创建 ActionChains 对象

执行鼠标悬停操作，并提交

4. 弹框处理 (Alert, Confirm, Prompt)

切换到弹窗

获取弹窗的文本

点击确认按钮

alert.dismiss() # 点击取消按钮 (如果存在)

alert.send_keys("输入内容") # 在 prompt 弹窗中输入

5. 下拉菜单

三种选择方式：

定位下拉框本身

在下拉框内部，根据 value 或文本定位选项并点击

6. 执行 JS

1. 滚动到页面底部

2. 滚动到指定元素的位置

先找到元素

arguments[0] 就是传进来的元素

3. 修改/删除元素属性 (例如，移除 input 的 readonly 属性)

4. 通过 JS 设置元素的值

上传文件

方案一：使用 send_keys() (最简单，但有局限)

启动浏览器并打开有文件上传功能的页面

替换成实际的上传页面

定位到文件上传按钮

方案一：使用 `send_keys()` (最简单，但有局限)