Python 垂直爬虫系统实现方法详解 | 极客日志

Python算法

Python 垂直爬虫系统实现方法详解

综述由AI生成使用 Python 构建垂直爬虫系统的核心架构与实现细节。通过下载器、解析器、URL 管理器和输出器四个模块的协作，实现了网页数据的抓取与存储。内容涵盖模块功能设计、关键代码逻辑、数据清洗流程以及基础的反爬策略，为开发者提供了一套完整的爬虫框架参考方案。

Ne0发布于 2025/2/6更新于 2026/6/221 浏览

Python 垂直爬虫系统实现方法详解

引言

网络爬虫（Web Crawler）是自动化获取互联网信息的重要工具。在垂直领域，针对特定网站或主题进行定向数据采集，能够高效地构建知识库或分析数据集。本文将详细介绍如何使用 Python 语言从零构建一个基础的垂直爬虫系统，涵盖核心模块设计与代码实现。

系统架构设计

一个标准的爬虫系统通常包含以下四个核心模块：

下载器（Downloader）：负责向目标服务器发送 HTTP 请求，获取网页源代码。
解析器（Parser）：对获取的 HTML 内容进行解析，提取出需要的数据和新的链接。
URL 管理器（URL Manager）：维护待抓取链接和已抓取链接，防止重复抓取。
输出器（Outputter）：将提取到的数据存储到本地文件或数据库中。

这四个模块协同工作，形成闭环的数据采集流程。

模块详细实现

1. 下载器模块

下载器主要负责处理 HTTP 请求。为了模拟浏览器行为，通常需要设置 User-Agent 头。此外，需要处理响应状态码，确保只获取成功的页面。

from urllib import request

def download(url):
    """
    下载指定 URL 的网页内容
    :param url: 目标网址
    :return: 网页内容字符串，失败返回 None
    """
    if url is None:
        return None
    
    # 设置请求头，避免被反爬机制拦截
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)'
    }
    req = request.Request(url, headers=headers)
    
    try:
        response = request.urlopen(req, timeout=10)
        if response.getcode() != 200:
            return None
        
        # 读取并解码字节流为字符串
        html_content = response.read().decode('utf-8')
        return html_content
    except Exception as e:
        print(f"下载失败：{e}")
        return

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online

class UrlManager(object):
    def __init__(self):
        self.new_urls = set()
        self.old_urls = set()

    def add_new_url(self, url):
        if url is None:
            return
        if url not in self.new_urls and url not in self.old_urls:
            self.new_urls.add(url)

    def add_new_urls(self, urls):
        if urls is None or len(urls) == 0:
            return
        for url in urls:
            self.add_new_url(url)

    def get_new_url(self):
        if not self.has_new_url():
            return None
        new_url = self.new_urls.pop()
        self.old_urls.add(new_url)
        return new_url

    def has_new_url(self):
        return len(self.new_urls) != 0

import re
from bs4 import BeautifulSoup
from urllib.parse import urljoin

class HtmlParser(object):
    def parse(self, page_url, html_cont):
        if page_url is None or html_cont is None:
            return None, {}
        
        soup = BeautifulSoup(html_cont, 'html.parser', from_encoding='utf-8')
        
        new_urls = self._get_new_urls(page_url, soup)
        new_data = self._get_new_data(page_url, soup)
        
        return new_urls, new_data

    def _get_new_urls(self, page_url, soup):
        new_urls = set()
        # 根据正则匹配分页链接，例如 /123/456/article/page.htm
        links = soup.find_all('a', href=re.compile(r"/\d+/\d+/page\.htm"))
        for link in links:
            new_url = link['href']
            new_full_url = urljoin(page_url, new_url)
            new_urls.add(new_full_url)
        return new_urls

    def _get_new_data(self, page_url, soup):
        res_data = {}
        
        # 提取标题
        title_node = soup.find('h1', class_='arti-title')
        if title_node is None:
            return res_data
        res_data['title'] = title_node.get_text(strip=True)
        
        # 提取时间
        datetime_node = soup.find('span', class_='arti-update')
        if datetime_node:
            res_data['datetime'] = datetime_node.get_text(strip=True)
            
        # 提取访问量
        visitcount_node = soup.find('span', class_='WP_VisitCount')
        if visitcount_node:
            res_data['visitcount'] = visitcount_node.get_text(strip=True)
            
        res_data['url'] = page_url
        return res_data

class HtmlOutputer(object):
    def __init__(self):
        self.data_list = []

    def collect_data(self, data):
        if data:
            self.data_list.append(data)

    def output_html(self, filename='output.html'):
        with open(filename, 'w', encoding='utf-8') as fout:
            fout.write('<html>\n')
            fout.write('<body>\n')
            fout.write('<table border="1">\n')
            fout.write('<tr><th>URL</th><th>Title</th><th>Date</th><th>Visits</th></tr>\n')
            
            for item in self.data_list:
                fout.write('<tr>')
                fout.write(f"<td>{item.get('url', '')}</td>")
                fout.write(f"<td>{item.get('title', '')}</td>")
                fout.write(f"<td>{item.get('datetime', '')}</td>")
                fout.write(f"<td>{item.get('visitcount', '')}</td>")
                fout.write('</tr>\n')
                
            fout.write('</table>\n')
            fout.write('</body>\n')
            fout.write('</html>\n')
        print("HTML 文件生成完毕")

def spider_main(seed_url):
    downloader = lambda u: download(u)
    parser = HtmlParser()
    manager = UrlManager()
    outputer = HtmlOutputer()
    
    manager.add_new_url(seed_url)
    
    while manager.has_new_url():
        page_url = manager.get_new_url()
        print(f"正在抓取：{page_url}")
        
        html_cont = downloader(page_url)
        if html_cont is None:
            continue
            
        new_urls, new_data = parser.parse(page_url, html_cont)
        
        if new_data:
            outputer.collect_data(new_data)
        
        if new_urls:
            manager.add_new_urls(new_urls)
            
    outputer.output_html()
    print("爬虫任务结束")

if __name__ == '__main__':
    seed = "http://example.com/start"
    spider_main(seed)

Python 垂直爬虫系统实现方法详解

Python 垂直爬虫系统实现方法详解

引言

系统架构设计

模块详细实现

1. 下载器模块

更多推荐文章

相关免费在线工具

2. URL 管理器

3. 解析器模块

4. 输出器模块

主程序逻辑

优化与注意事项

总结

更多推荐文章

相关免费在线工具

Python 垂直爬虫系统实现方法详解

Python 垂直爬虫系统实现方法详解

引言

系统架构设计

模块详细实现

1. 下载器模块

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2. URL 管理器

3. 解析器模块

4. 输出器模块

主程序逻辑

优化与注意事项

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具