Python 爬虫与 Selenium 动态页面抓取及学习路径指南 | 极客日志

PythonAI算法

Python 爬虫与 Selenium 动态页面抓取及学习路径指南

重点解决 Selenium 在执行 JavaScript 脚本模拟点击时遇到的元素定位失效问题，提供了正确的元素查找与脚本传递方法。同时梳理了从 Python 基础语法到爬虫框架、数据分析及机器学习的系统学习路线，涵盖核心库如 Requests、Scrapy、Pandas 等，旨在帮助开发者构建完整的数据采集与分析能力体系。

Eee_123发布于 2025/2/6更新于 2026/7/1935 浏览

Python 爬虫与 Selenium 动态页面抓取实战

前言

Python 爬虫在数据采集领域非常强大。在处理现代网页时，许多内容是通过 JavaScript 动态加载的，传统的 HTTP 请求无法直接获取这些数据。此时，Selenium 作为自动化测试工具，常被用于模拟浏览器行为，自动操控 DOM 元素和执行 JavaScript 脚本。

本文将深入探讨如何使用 Selenium 执行 JavaScript 程序，解决动态网页中的点击、交互问题，并梳理从入门到进阶的系统学习路径。

核心问题：Selenium 执行 JavaScript 点击失效

在使用 Selenium 抓取数据时，经常遇到需要模拟鼠标点击触发 JS 事件的情况。如果直接使用 execute_script 尝试查找元素并点击，往往会因为作用域或语法错误导致失败。

常见错误示例

以下代码试图直接在 JavaScript 字符串中调用 Python 的 By 类，这是无效的：

# 错误示范
browser.execute_script("document.getElement(By.xpath(\"//div[@class='vbseo_liked']\")").click()")

原因分析：

By 是 Python Selenium 库中的类，JavaScript 环境中不存在。
execute_script 运行在浏览器上下文中，无法直接访问 Python 对象。
元素定位应在 Python 端完成，再将元素引用传递给 JavaScript。

正确解决方案

正确的流程是：先在 Python 中找到元素对象，然后将其作为参数传递给 execute_script。

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

# 初始化浏览器 (推荐使用 Chrome)
driver = webdriver.Chrome()
driver.maximize_window()
driver.get("https://example.com")

try:
    # 1. 在 Python 端定位元素
    link = driver.find_element(By.XPATH, "//div[@class='vbseo_liked']/a[contains(@onclick, 'return vbseoui.others_click(this)')]")
    
    # 2. 使用 execute_script 传递元素进行点击
    # arguments[0] 代表传入的第一个参数，即上面的 link 对象
    driver.execute_script("arguments[0].click();", link)
    
 Exception  e:
    ()
:
    driver.quit()

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

class WaitForTextNotToEndWith(object):
    def __init__(self, locator, text):
        self.locator = locator
        self.text = text

    def __call__(self, driver):
        try:
            element_text = driver.find_element(*self.locator).text.strip()
            return not element_text.endswith(self.text)
        except Exception:
            return False

# 使用示例
wait = WebDriverWait(driver, 30)
condition = WaitForTextNotToEndWith((By.CLASS_NAME, 'vbseo_liked'), "11 others like this.")
wait.until(condition)
print("Success!")

function eventFire(el, etype){
    if (el.fireEvent) {
        el.fireEvent('on' + etype);
    } else {
        var evObj = document.createEvent('Events');
        evObj.initEvent(etype, true, false);
        el.dispatchEvent(evObj);
    }
}
// 在 Python 中调用
driver.execute_script(
    "eventFire(arguments[0], 'click');",
    link
)

Python 爬虫与 Selenium 动态页面抓取及学习路径指南

Python 爬虫与 Selenium 动态页面抓取实战

前言

核心问题：Selenium 执行 JavaScript 点击失效

常见错误示例

正确解决方案

更多推荐文章

相关免费在线工具

高级技巧：自定义等待条件

自定义等待类示例

模拟原生点击事件

Python 技术栈系统学习路径

一、Python 基础

二、网络爬虫进阶

三、数据处理与分析

四、数据库与 ETL

五、机器学习与人工智能

六、工程化与部署

结语

更多推荐文章

相关免费在线工具

Python 爬虫与 Selenium 动态页面抓取及学习路径指南

Python 爬虫与 Selenium 动态页面抓取实战

前言

核心问题：Selenium 执行 JavaScript 点击失效

常见错误示例

正确解决方案

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

高级技巧：自定义等待条件

自定义等待类示例

模拟原生点击事件

Python 技术栈系统学习路径

一、Python 基础

二、网络爬虫进阶

三、数据处理与分析

四、数据库与 ETL

五、机器学习与人工智能

六、工程化与部署

结语

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具