Python开发从入门到精通：网络爬虫高级应用与Scrapy框架

Ne0inhk

14 Mar 2026 — 5 min read

《Python开发从入门到精通》设计指南第三十九篇：网络爬虫高级应用与Scrapy框架

一、学习目标与重点

💡 学习目标：掌握Python网络爬虫的高级技巧，包括Scrapy框架、分布式爬虫、动态网页爬取、反爬虫策略等；学习Scrapy、Selenium、BeautifulSoup等库的使用；通过实战案例实现网络爬虫应用。
⚠️ 学习重点：Scrapy框架、分布式爬虫、动态网页爬取、反爬虫策略、Selenium库、BeautifulSoup库、网络爬虫实战。

39.1 网络爬虫概述

39.1.1 什么是网络爬虫

网络爬虫（Web Crawler）是一种程序，用于自动访问网页并提取信息。网络爬虫的应用场景包括数据分析、搜索引擎、内容聚合等。

39.1.2 网络爬虫的流程

发送请求：向网页发送HTTP请求。
获取响应：获取网页的HTML内容。
解析内容：提取网页中的信息。
存储数据：将提取的信息存储到数据库或文件中。
继续爬取：根据需要继续爬取其他网页。

39.2 Scrapy框架

39.2.1 什么是Scrapy

Scrapy是一个用于爬取网站数据的开源Python框架。Scrapy具有以下特点：

高性能：异步处理请求，提高爬取速度。
可扩展性：支持自定义中间件和管道。
易用性：提供命令行工具和Web界面。

39.2.2 安装Scrapy

pip install scrapy

39.2.3 创建Scrapy项目

scrapy startproject myspider cd myspider scrapy genspider example example.com

39.2.4 编写爬虫

# myspider/spiders/example.pyimport scrapy classExampleSpider(scrapy.Spider): name ="example" allowed_domains =["example.com"] start_urls =["https://example.com"]defparse(self, response):# 提取标题 title = response.css("title::text").get()yield{"title": title}

39.2.5 运行爬虫

scrapy crawl example -o output.json

39.3 动态网页爬取

39.3.1 使用Selenium爬取动态网页

import time from selenium import webdriver from selenium.webdriver.common.by import By # 初始化浏览器 driver = webdriver.Chrome()# 访问网页 driver.get("https://example.com")# 等待页面加载 time.sleep(5)# 提取标题 title = driver.find_element(By.CSS_SELECTOR,"title").text print(f"标题: {title}")# 关闭浏览器 driver.quit()

39.3.2 使用Scrapy与Selenium结合

# myspider/spiders/dynamic_spider.pyimport scrapy from selenium import webdriver from selenium.webdriver.common.by import By import time classDynamicSpider(scrapy.Spider): name ="dynamic" allowed_domains =["example.com"] start_urls =["https://example.com"]def__init__(self): self.driver = webdriver.Chrome()defparse(self, response):# 使用Selenium访问网页 self.driver.get(response.url) time.sleep(5) title = self.driver.find_element(By.CSS_SELECTOR,"title").text yield{"title": title}defclosed(self, reason): self.driver.quit()

39.4 反爬虫策略

39.4.1 使用代理IP

# myspider/middlewares.pyclassProxyMiddleware:defprocess_request(self, request, spider): request.meta["proxy"]="http://127.0.0.1:8080"# myspider/settings.py DOWNLOADER_MIDDLEWARES ={"myspider.middlewares.ProxyMiddleware":543,}

39.4.2 使用User-Agent旋转

# myspider/middlewares.pyimport random classUserAgentMiddleware: user_agents =["Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36",]defprocess_request(self, request, spider): request.headers["User-Agent"]= random.choice(self.user_agents)# myspider/settings.py DOWNLOADER_MIDDLEWARES ={"myspider.middlewares.UserAgentMiddleware":543,}

39.4.3 使用Cookies池

# myspider/middlewares.pyclassCookiesMiddleware: cookies =[{"name":"session","value":"123456"},{"name":"session","value":"789012"},]defprocess_request(self, request, spider): request.cookies = random.choice(self.cookies)# myspider/settings.py DOWNLOADER_MIDDLEWARES ={"myspider.middlewares.CookiesMiddleware":543,}

39.5 分布式爬虫

39.5.1 使用Scrapy-Redis实现分布式爬虫

39.5.1.1 安装Scrapy-Redis

pip install scrapy-redis

39.5.1.2 配置Scrapy-Redis

# myspider/settings.py# 启用Scrapy-Redis调度器 SCHEDULER ="scrapy_redis.scheduler.Scheduler"# 启用Scrapy-Redis去重 DUPEFILTER_CLASS ="scrapy_redis.dupefilter.RFPDupeFilter"# 启用Scrapy-Redis存储 ITEM_PIPELINES ={"scrapy_redis.pipelines.RedisPipeline":300,}# 配置Redis连接 REDIS_URL ="redis://127.0.0.1:6379/0"

39.5.1.3 编写爬虫

# myspider/spiders/distributed_spider.pyimport scrapy from scrapy_redis.spiders import RedisSpider classDistributedSpider(RedisSpider): name ="distributed" allowed_domains =["example.com"] redis_key ="distributed:start_urls"defparse(self, response): title = response.css("title::text").get()yield{"title": title}

39.5.1.4 运行爬虫

# 启动Redis服务器 redis-server # 启动爬虫 scrapy runspider myspider/spiders/distributed_spider.py # 向Redis添加起始URL redis-cli lpush distributed:start_urls https://example.com

39.6 实战案例：爬取豆瓣电影

39.6.1 需求分析

开发一个爬虫，爬取豆瓣电影Top250的信息，包括电影名称、评分、导演、演员、年份等。

39.6.2 代码实现

# myspider/spiders/douban_spider.pyimport scrapy classDoubanSpider(scrapy.Spider): name ="douban" allowed_domains =["movie.douban.com"] start_urls =["https://movie.douban.com/top250"]defparse(self, response):# 提取电影信息 movies = response.css(".item")for movie in movies: title = movie.css(".title::text").get() rating = movie.css(".rating_num::text").get() director = movie.css(".info .bd p:first-child::text").get() year = movie.css(".info .bd p:nth-child(2)::text").get()yield{"title": title,"rating": rating,"director": director,"year": year }# 提取下一页URL next_page = response.css(".next a::attr(href)").get()if next_page:yield response.follow(next_page, self.parse)

39.6.3 运行爬虫

scrapy crawl douban -o douban_top250.json

39.7 实战案例：爬取淘宝商品

39.7.1 需求分析

开发一个爬虫，爬取淘宝商品的信息，包括商品名称、价格、销量、评价等。

39.7.2 代码实现

# myspider/spiders/taobao_spider.pyimport scrapy from selenium import webdriver from selenium.webdriver.common.by import By import time classTaobaoSpider(scrapy.Spider): name ="taobao" allowed_domains =["taobao.com"] start_urls =["https://www.taobao.com"]def__init__(self): self.driver = webdriver.Chrome()defparse(self, response):# 使用Selenium访问淘宝 self.driver.get(response.url) time.sleep(5)# 搜索商品 search_box = self.driver.find_element(By.CSS_SELECTOR,"#q") search_box.send_keys("Python") search_box.submit() time.sleep(5)# 提取商品信息 products = self.driver.find_elements(By.CSS_SELECTOR,".item.J_MouserOnverReq")for product in products: name = product.find_element(By.CSS_SELECTOR,".title").text price = product.find_element(By.CSS_SELECTOR,".price").text sales = product.find_element(By.CSS_SELECTOR,".deal-cnt").text yield{"name": name,"price": price,"sales": sales }defclosed(self, reason): self.driver.quit()

39.7.3 运行爬虫

scrapy crawl taobao -o taobao_products.json

总结

✅ 本文详细介绍了Python网络爬虫的高级技巧，包括Scrapy框架、分布式爬虫、动态网页爬取、反爬虫策略等；学习了Scrapy、Selenium、BeautifulSoup等库的使用；通过实战案例实现了爬取豆瓣电影和淘宝商品。
✅ 建议读者在学习过程中多练习，通过编写代码加深对知识点的理解。

猛裁1.6万人后，网站再崩6小时、一周4次重大事故！官方“紧急复盘”：跟裁员无关，也不是AI写代码的锅

整理 | 郑丽媛出品 | ZEEKLOG（ID：ZEEKLOGnews）过去几年里，科技公司几乎都在同一件事上加速：让 AI 参与写代码。从自动补全、自动生成函数，到直接修改系统配置，生成式 AI 已经逐渐走进真实生产环境。但最近发生在亚马逊的一连串事故，却给整个行业泼了一盆冷水——当 AI 开始真正参与生产环境开发时，事情可能远比想象复杂。最近，多家媒体披露，本周二亚马逊内部紧急召开了一场工程“深度复盘（deep dive）”会议，专门讨论最近频繁出现的系统故障——其中，一个被反复提及的关键词是：AI 辅助代码。一周 4 次严重事故，亚马逊内部紧急复盘事情的起点，是最近一段时间亚马逊系统稳定性明显下降。负责亚马逊网站技术架构的高级副总裁 Dave Treadwell 在一封内部邮件中坦言：“各位，正如大家可能已经知道的，最近网站及相关基础设施的可用性确实不太理想。” 为此，公司决定把原本每周例行举行的技术会议

这回真的“装”到了！来OpenClaw全国纵深行，你只需要带一台电脑……

AI Agent 的风，已经从 GitHub 吹到了线下。过去几个月，越来越多开发者开始讨论一个问题：当 AI 不再只是聊天，而是可以执行任务，软件会变成什么样？在这股浪潮中，一个开源项目迅速进入开发者视野——OpenClaw，在 GitHub 上获得大量关注，相关教程、实践案例不断出现。有人用它自动整理资料，有人用它管理开发流程，还有人尝试让它执行复杂的工作流。很多开发者第一次意识到： AI 不只是工具，它可能成为“执行者”。不过，在技术社区之外，大多数人对 Agent 的理解仍停留在概念层面。 * AI Agent 到底是什么？ * 如何在自己的电脑上运行？ * 普通开发者能否真正用起来？带着这些问题，一场围绕 OpenClaw 的开发者城市行动正在展开。 ZEEKLOG 发起的OpenClaw 全国纵深行将走进 20 个城市，用最直接的方式回答一个问题——如果

GLM-Image WebUI多用户协作方案：Gradio队列+会话隔离+个人输出目录自动创建

GLM-Image WebUI多用户协作方案：Gradio队列+会话隔离+个人输出目录自动创建 1. 为什么需要多用户协作能力？你可能已经用过GLM-Image WebUI，输入一段文字，点击生成，几秒钟后一张高清图像就出现在屏幕上——这个过程很流畅，但前提是：只有你在用。可现实场景中，情况往往不是这样。比如团队内部共享一台高性能服务器做AI图像实验，或者教学环境中老师带着几十个学生同时上手实践，又或者公司为市场部、设计部、产品部统一部署一个图像生成服务入口……这时候你会发现，原生的Gradio界面立刻暴露出三个关键问题： * 请求挤占：多人同时点“生成图像”，GPU显存瞬间爆满，有人卡住不动，有人报错退出； * 结果混杂：所有人生成的图都默认存进同一个/outputs/文件夹，张三的赛博朋克海报和李四的水墨山水画堆在一起，找图像像大海捞针； * 会话干扰：王五刚调好一组参数准备批量生成，赵六刷新页面重置了所有设置，前功尽弃。这些问题不是小毛病，而是从单人玩具升级为团队生产力工具时必须跨过的门槛。本文不讲模型原理，也不重复部署步骤，而是聚焦一个工程落地中真实存在

ClawdBot步骤详解：前端无法访问时的SSH端口转发与Token链接获取

ClawdBot步骤详解：前端无法访问时的SSH端口转发与Token链接获取 1. ClawdBot是什么：你的本地AI助手，不依赖云端服务 ClawdBot 是一个真正属于你自己的个人 AI 助手——它不是网页上点几下就用的 SaaS 工具，而是一个能完整运行在你本地设备（笔记本、台式机、甚至树莓派）上的独立应用。它不像很多“AI助手”那样把你的提示词悄悄发到远端服务器，而是把模型推理、对话管理、插件调度全部留在你自己的机器里。它的后端由 vLLM 驱动，这意味着你能以极高的吞吐和极低的延迟运行像 Qwen3-4B-Instruct 这样的高质量开源模型。vLLM 的 PagedAttention 技术让显存利用更高效，4GB 显存也能稳稳跑起 4B 级别模型，响应快、不卡顿、不排队。更重要的是，ClawdBot 的设计哲学是“可控即可靠”。所有配置文件明文可读、所有模型路径清晰可见、所有日志本地留存。你不需要成为 DevOps