Python 爬虫实战：使用 Selenium 模拟登录与反爬策略 | 极客日志

Python大前端

Python 爬虫实战：使用 Selenium 模拟登录与反爬策略

Selenium 是强大的浏览器自动化工具，广泛用于网页测试和爬虫开发。详细介绍基于 Python 的 Selenium 环境搭建、元素定位方法（XPath/CSS）、交互操作（点击/输入/滚动）、显式等待机制以及常见的反爬对抗技巧（如隐藏 webdriver 特征、处理滑块验证）。同时涵盖 Cookie 管理以维持登录状态，并提供完整的代码示例与最佳实践建议，帮助开发者高效构建稳定的自动化脚本。

imJackJia发布于 2025/2/6更新于 2026/7/2536 浏览

Python 爬虫实战：使用 Selenium 模拟登录与反爬策略

1. 引言

Selenium 是一个用于 Web 应用程序测试的工具，它支持多种编程语言（Python, Java, C#, Ruby 等）和多种浏览器（Chrome, Firefox, Safari, Edge 等）。在爬虫领域，Selenium 主要用于处理 JavaScript 渲染的动态页面、模拟用户真实行为以绕过基础反爬机制、以及执行复杂的交互操作（如验证码识别、滑块拖动）。相比于传统的 HTTP 请求库（如 requests），Selenium 的优势在于它能完全控制浏览器，获取渲染后的 DOM 结构，但代价是资源消耗较大且速度较慢。

2. 环境准备

2.1 安装依赖

首先确保已安装 Python 3.8+ 环境。通过 pip 安装 selenium 库：

pip install selenium

2.2 浏览器驱动

Selenium 需要对应的浏览器驱动程序（Driver）。对于 Chrome 浏览器，需下载 ChromeDriver。建议使用 webdriver-manager 库来自动管理驱动版本，避免手动匹配版本的麻烦：

pip install webdriver-manager

若不使用自动管理器，请确保 ChromeDriver 版本与本地 Chrome 浏览器主版本号一致，并将其路径添加到系统环境变量 PATH 中。

3. 初始化 WebDriver

创建 WebDriver 实例是操作的起点。为了增强稳定性和隐蔽性，通常需要对 ChromeOptions 进行配置。

from selenium import webdriver
from selenium.webdriver.chrome.options import Options

options = Options()
# 无头模式（后台运行，不显示界面）
options.add_argument('--headless') 
# 禁用自动化检测特征
options.add_experimental_option('excludeSwitches', ['enable-automation'])
# 禁用扩展程序
options.add_argument('--disable-extensions')
# 设置窗口大小，防止被检测为异常尺寸
options.add_argument('--window-size=1920,1080')
# 设置 User-Agent，伪装成正常浏览器
options.add_argument('user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36')

driver = webdriver.Chrome(options=options)

4. 元素定位策略

准确定位页面元素是操作的前提。Selenium 支持 8 种定位方式。

ID: By.ID (最快，唯一)
Name: By.NAME
Class Name: By.CLASS_NAME

相关免费在线工具

curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online
HTML转Markdown
将 HTML 片段转为 GitHub Flavored Markdown，支持标题、列表、链接、代码块与表格等；浏览器内处理，可链接预填。在线工具，HTML转Markdown在线工具，online
JSON 压缩
通过删除不必要的空白来缩小和压缩JSON。在线工具，JSON 压缩在线工具，online

from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

# 等待元素出现并可见
element = WebDriverWait(driver, 10).until(
    EC.presence_of_element_located((By.ID, 'username'))
)
element.send_keys("test_user")
element.click()

from selenium.webdriver.common.action_chains import ActionChains

actions = ActionChains(driver)
actions.move_to_element(element).click().perform()
# 拖拽滑块
actions.drag_and_drop_by_offset(slider, 100, 0).perform()

from selenium.webdriver.common.keys import Keys
element.send_keys(Keys.ENTER)

隐式等待 (Implicit Wait): 设置全局等待时间，元素未找到时轮询查找。
```
driver.implicitly_wait(10)
```

显式等待 (Explicit Wait): 针对特定条件等待，推荐方式。

WebDriverWait(driver, 10).until(EC.element_to_be_clickable((By.ID, 'btn')))

强制等待 (Sleep): 暂停指定秒数，不推荐在生产环境大量使用，会阻塞线程。
```
import time
time.sleep(2)
```

driver.execute_script("Object.defineProperty(navigator, 'webdriver', {get: () => undefined})")

options.add_argument("--disable-blink-features=AutomationControlled")

driver.switch_to.frame("iframe-id")
# 操作元素
driver.switch_to.default_content() # 切回主文档

alert = driver.switch_to.alert
alert.accept()

cookies = driver.get_cookies()
# 保存
import json
with open('cookies.json', 'w') as f:
    json.dump(cookies, f)
# 加载
for cookie in cookies:
    driver.add_cookie(cookie)

import logging
logging.basicConfig(level=logging.INFO)
logger = logging.getLogger(__name__)
try:
    # 业务逻辑
    pass
except Exception as e:
    logger.error(f"发生错误：{e}")
finally:
    driver.quit()

Python 爬虫实战：使用 Selenium 模拟登录与反爬策略

Python 爬虫实战：使用 Selenium 模拟登录与反爬策略

1. 引言

2. 环境准备

2.1 安装依赖

2.2 浏览器驱动

3. 初始化 WebDriver

4. 元素定位策略

更多推荐文章

相关免费在线工具

5. 常见交互操作

5.1 输入与点击

5.2 鼠标操作

5.3 键盘操作

6. 等待机制

7. 反爬对抗技巧

7.1 隐藏 webdriver 属性

7.2 插件欺骗

7.3 处理 Frame

7.4 处理 Alert

9. 错误处理与日志

10. 总结

更多推荐文章

相关免费在线工具

Python 爬虫实战：使用 Selenium 模拟登录与反爬策略

Python 爬虫实战：使用 Selenium 模拟登录与反爬策略

1. 引言

2. 环境准备

2.1 安装依赖

2.2 浏览器驱动

3. 初始化 WebDriver

4. 元素定位策略

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

5. 常见交互操作

5.1 输入与点击

5.2 鼠标操作

5.3 键盘操作

6. 等待机制

7. 反爬对抗技巧

7.1 隐藏 webdriver 属性

7.2 插件欺骗

7.3 处理 Frame

7.4 处理 Alert

8. Cookie 管理

9. 错误处理与日志

10. 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具