Python 爬虫实战：爬取苏宁商品评论（好评与差评） | 极客日志

PythonAI算法

Python 爬虫实战：爬取苏宁商品评论（好评与差评）

介绍如何使用 Python 和 Selenium 抓取苏宁手机商品评论。内容涵盖环境搭建、基础代码解析、常见问题修复及完整版代码实现。通过模拟浏览器操作，自动提取好评与差评并保存至本地文件。文章还包含翻页逻辑、等待机制优化、资源清理及爬虫注意事项，适合编程初学者学习动态网页数据抓取技术。

ByteFlow发布于 2026/3/24更新于 2026/5/2229K 浏览

Python 爬虫实战：爬取苏宁商品评论

本文以爬取苏宁手机评论为例，讲解 Python 爬虫的实现过程。通过 Selenium 模拟浏览器操作，自动抓取商品的好评和差评并保存到本地文件。

一、核心概念

1.1 什么是爬虫？

爬虫是模拟人的操作，自动访问网页、提取指定信息的程序。它可以替代人工完成打开浏览器、加载页面、提取评论、翻页、保存内容等机械操作。

1.2 为什么选 Selenium？

苏宁的评论页面采用了动态加载技术，普通的请求工具无法直接获取到评论内容。Selenium 是一款自动化测试工具，可以模拟真实的浏览器操作（比如点击、翻页、等待页面加载），完美解决动态页面的爬取问题。

1.3 核心名词解释

驱动（Driver）：代码和浏览器之间的桥梁，用于传递指令。
定位元素：找到评论在网页中的位置，常用方式有按类名、XPath、ID 等。
等待机制：设置等待时间，确保页面加载完成后再执行后续操作。
翻页逻辑：判断页面是否有'下一页'按钮，有则点击，无则停止。

二、环境搭建

2.1 安装 Python

推荐安装 3.8 及以上版本。安装时勾选'Add Python to PATH'，验证方法：CMD 输入 python --version。

2.2 安装 Selenium 库

在 CMD 中输入命令：pip install selenium。验证：pip show selenium。

2.3 关于浏览器驱动

新版 Selenium 已实现'驱动自动管理'，运行代码时会自动检测浏览器版本并下载匹配的驱动，无需手动操作。

三、核心代码解析

3.1 基础版代码

from selenium import webdriver
from selenium.webdriver.edge.options import Options
from selenium.webdriver.common.by import By
import time

# 1. 配置 Edge 浏览器
__browser_url = r"C:\Program Files (x86)\Microsoft\Edge\Application\msedge.exe"
chrome_options = Options()
chrome_options.binary_location = __browser_url
driver = webdriver.Edge(options=chrome_options)

# 2. 访问苏宁好评页面
review_url = 'https://review.suning.com/cluster_cmmdty_review/cluster-38249278-000000012389328846-0000000000-1-good.htm?originalCm'
driver.get(review_url)

# 3. 打开本地文件
yzpj_file = open('优质评价.txt', 'w')

# 4. 定义函数：提取当前页面的评论
 ():
    pj_elements_content = driver.find_elements(by=By.CLASS_NAME, value=)
     i  ((pj_elements_content)):
        file.write(pj_elements_content[i].text + )


get_py_content(yzpj_file)


next_elements = driver.find_elements_by_xpath()
 next_elements != []:
    next_element = next_elements[]
    time.sleep()
    next_element.click()
    get_py_content(yzpj_file)
    next_elements = driver.find_elements_by_xpath()


yzpj_file.close()

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

''' 爬取苏宁商品评论（好评）- 完整版 '''
from selenium import webdriver
from selenium.webdriver.edge.options import Options
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time
import os

# ===================== 第一步：初始化浏览器驱动 =====================
def init_edge_driver():
    chrome_options = Options()
    # 自动检测 Edge 浏览器路径
    edge_paths = [
        r"C:\Program Files (x86)\Microsoft\Edge\Application\msedge.exe",
        r"C:\Program Files\Microsoft\Edge\Application\msedge.exe"
    ]
    for path in edge_paths:
        if os.path.exists(path):
            chrome_options.binary_location = path
            break
    # 添加防检测配置
    chrome_options.add_experimental_option("excludeSwitches", ["enable-automation"])
    chrome_options.add_experimental_option('useAutomationExtension', False)
    # 创建驱动对象 + 设置隐式等待
    driver = webdriver.Edge(options=chrome_options)
    driver.implicitly_wait(10)
    return driver

# ===================== 第二步：核心爬取逻辑 =====================
if __name__ == "__main__":
    driver = init_edge_driver()
    print("浏览器已启动...")
    review_url = 'https://review.suning.com/cluster_cmmdty_review/cluster-38249278-000000012389328846-0000000000-1-good.htm?originalCm'
    driver.get(review_url)
    print(f"已打开网页：{review_url}")

    with open('优质评价.txt', 'w', encoding='utf-8') as yzpj_file:
        def get_comment_content(file):
            WebDriverWait(driver, 10).until(
                EC.presence_of_all_elements_located((By.CLASS_NAME, 'body-content'))
            )
            comment_elements = driver.find_elements(By.CLASS_NAME, 'body-content')
            for element in comment_elements:
                content = element.text.strip()
                if content:
                    file.write(content + '\n\n')
                    print(f"已抓取评论：{content[:50]}...")

        print("开始抓取第一页评论...")
        get_comment_content(yzpj_file)

        page_num = 2
        while True:
            try:
                next_button = WebDriverWait(driver, 5).until(
                    EC.element_to_be_clickable((By.XPATH, '//*[@class="next rv-maidian "]'))
                )
                print(f"正在跳转到第{page_num}页...")
                next_button.click()
                time.sleep(2)
                get_comment_content(yzpj_file)
                page_num += 1
            except:
                print("已爬取完所有页面！")
                break

    print("开始关闭浏览器...")
    driver.quit()
    print("爬取完成！评论已保存到「优质评价.txt」文件中。")

Python 爬虫实战：爬取苏宁商品评论（好评与差评）

Python 爬虫实战：爬取苏宁商品评论

一、核心概念

1.1 什么是爬虫？

1.2 为什么选 Selenium？

1.3 核心名词解释

二、环境搭建

2.1 安装 Python

2.2 安装 Selenium 库

2.3 关于浏览器驱动

三、核心代码解析

3.1 基础版代码

更多推荐文章

相关免费在线工具

3.2 基础版代码的问题

3.3 完整版代码

四、功能扩展：爬取差评

4.1 关键改动

五、常见问题解决

问题 1：运行代码时提示'找不到 Python'

问题 2：爬取的文件为空 / 只有部分评论

问题 3：中文乱码

问题 4：浏览器打开后立即关闭

六、进阶思考

七、注意事项

总结

更多推荐文章

相关免费在线工具

Python 爬虫实战：爬取苏宁商品评论（好评与差评）

Python 爬虫实战：爬取苏宁商品评论

一、核心概念

1.1 什么是爬虫？

1.2 为什么选 Selenium？

1.3 核心名词解释

二、环境搭建

2.1 安装 Python

2.2 安装 Selenium 库

2.3 关于浏览器驱动

三、核心代码解析

3.1 基础版代码

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.2 基础版代码的问题

3.3 完整版代码

四、功能扩展：爬取差评

4.1 关键改动

五、常见问题解决

问题 1：运行代码时提示'找不到 Python'

问题 2：爬取的文件为空 / 只有部分评论

问题 3：中文乱码

问题 4：浏览器打开后立即关闭

六、进阶思考

七、注意事项

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具