基于 Scrapy 的论坛帖子内容抓取实战教程 | 极客日志

Python

基于 Scrapy 的论坛帖子内容抓取实战教程

综述由AI生成使用 Python Scrapy 框架抓取论坛帖子的完整流程。内容包括环境搭建、Spider 编写、XPath 解析、数据管道处理、中间件配置及项目设置。通过示例代码展示了如何提取标题、URL 和内容，并处理翻页与递归请求。此外还补充了反爬策略应对、并发控制及法律合规建议，适合初学者快速上手网络爬虫开发。

岁月神偷发布于 2025/2/7更新于 2026/5/3023 浏览

基于 Scrapy 的论坛帖子内容抓取实战教程

简介

本文旨在介绍如何使用 Python 的 Scrapy 框架快速构建一个网络爬虫，用于抓取论坛帖子的标题、URL 及正文内容。内容涵盖环境准备、项目结构、Spider 编写、数据解析、管道处理及中间件配置等核心环节。

一、环境准备

1. 安装依赖

确保已安装 Python 3.x 环境。推荐使用虚拟环境管理工具（如 venv 或 conda）隔离依赖。

python -m venv scrapy_env
source scrapy_env/bin/activate  # Windows: scrapy_env\Scripts\activate
pip install scrapy

2. 创建项目

在项目根目录下执行以下命令初始化 Scrapy 工程：

scrapy startproject miao

这将生成如下目录结构：

miao/: 项目主目录
- items.py: 定义数据模型
- middlewares.py: 定义请求/响应中间件
- pipelines.py: 定义数据处理管道
- settings.py: 全局配置文件
- spiders/: 存放 Spider 脚本

二、编写 Spider

在 spiders 文件夹下新建 nga_spider.py 文件。

1. 基础结构

定义继承自 scrapy.Spider 的类，指定名称和起始 URL。

import scrapy
from scrapy import Selector, Request

class NgaSpider(scrapy.Spider):
    name = "nga_spider"
    allowed_domains = ["bbs.ngacn.cc"]
    start_urls = [
        "http://bbs.ngacn.cc/thread.php?fid=406",
    ]

2. 页面解析

使用 parse 方法处理初始页面的 HTML。Scrapy 默认调用此函数解析 start_urls 返回的内容。

    def parse(self, response):
        selector = Selector(response)
        # 提取 class 为 topic 的链接列表
        content_list = selector.xpath("//*[@class='topic']")
        
        for content  content_list:
            
            title = content.xpath().get()
            
            url = .start_urls[].split()[] + content.xpath().get()
            
            ()
            
            
             Request(url=url, callback=.parse_topic)

相关免费在线工具

curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online
HTML转Markdown
将 HTML 片段转为 GitHub Flavored Markdown，支持标题、列表、链接、代码块与表格等；浏览器内处理，可链接预填。在线工具，HTML转Markdown在线工具，online
JSON 压缩
通过删除不必要的空白来缩小和压缩JSON。在线工具，JSON 压缩在线工具，online

    def parse_topic(self, response):
        selector = Selector(response)
        # 提取帖子正文内容，根据实际网站结构调整 XPath
        content_list = selector.xpath("//*[@class='postcontent ubbcode']")
        
        for content in content_list:
            text = content.xpath('string(.)').get()
            if text:
                print(text)

    def parse(self, response):
        # ... 现有逻辑 ...
        next_page = response.css("a.next::attr(href)").get()
        if next_page:
            yield response.follow(next_page, callback=self.parse)

from scrapy import Item, Field

class PostItem(Item):
    title = Field()
    url = Field()
    author = Field()
    content = Field()

class FilePipeline(object):
    def process_item(self, item, spider):
        # 示例：将数据打印到控制台，实际可替换为 CSV 或 MySQL 写入
        print(f"Processing: {item['title']}")
        return item

ITEM_PIPELINES = {
    'miao.pipelines.FilePipeline': 300,
}

class UserAgentMiddleware(object):
    def process_request(self, request, spider):
        user_agents = [
            "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36",
            "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15"
        ]
        request.headers.setdefault("User-Agent", random.choice(user_agents))

class ProxyMiddleware(object):
    def process_request(self, request, spider):
        proxy = "http://127.0.0.1:8123"
        request.meta["proxy"] = proxy

DOWNLOADER_MIDDLEWARES = {
    'miao.middlewares.UserAgentMiddleware': 400,
    'miao.middlewares.ProxyMiddleware': 401,
}

# 请求延迟，避免对服务器造成压力
DOWNLOAD_DELAY = 2

# 随机化延迟
RANDOMIZE_DOWNLOAD_DELAY = True

# 并发请求数
CONCURRENT_REQUESTS = 16

# 单域名并发数
CONCURRENT_REQUESTS_PER_DOMAIN = 8

# 重试次数
RETRY_TIMES = 3

# 忽略错误状态码
IGNORE_HTTP_CODES = [403, 404]

基于 Scrapy 的论坛帖子内容抓取实战教程

基于 Scrapy 的论坛帖子内容抓取实战教程

简介

一、环境准备

1. 安装依赖

2. 创建项目

二、编写 Spider

1. 基础结构

2. 页面解析

更多推荐文章

相关免费在线工具

三、递归抓取与翻页

1. 详情页解析

2. 翻页处理

四、数据管道 (Pipeline)

1. 定义 Item

2. 实现 Pipeline

3. 启用 Pipeline

五、中间件 (Middleware)

1. User-Agent 设置

2. 代理 IP 支持

六、项目配置优化

七、IDE 调试配置

八、最佳实践与合规建议

1. Robots.txt 协议

2. 频率控制

3. 数据隐私

4. 异常处理

九、总结

更多推荐文章

相关免费在线工具

基于 Scrapy 的论坛帖子内容抓取实战教程

基于 Scrapy 的论坛帖子内容抓取实战教程

简介

一、环境准备

1. 安装依赖

2. 创建项目

二、编写 Spider

1. 基础结构

2. 页面解析

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

三、递归抓取与翻页

1. 详情页解析

2. 翻页处理

四、数据管道 (Pipeline)

1. 定义 Item

2. 实现 Pipeline

3. 启用 Pipeline

五、中间件 (Middleware)

1. User-Agent 设置

2. 代理 IP 支持

六、项目配置优化

七、IDE 调试配置

八、最佳实践与合规建议

1. Robots.txt 协议

2. 频率控制

3. 数据隐私

4. 异常处理

九、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具