Python 网络数据采集工具源码及开源项目推荐

前言

在网络数据获取与分析领域，Python 凭借其丰富的库支持和简洁的语法，成为首选语言。本文分享了一套基于 Selenium 实现的 Python 网络数据采集脚本源码，详细解析了配置、核心爬取逻辑及文件管理功能。同时，整理了一份包含 Locust、Jumpserver、PaddlePaddle 等在内的 57 个常用 Python 相关开源项目与工具清单，旨在为开发者提供技术选型参考和实战素材。

注意：在进行网络数据采集时，请务必遵守目标网站的 robots.txt 协议及相关法律法规，合理设置请求频率，避免对服务器造成压力或侵犯版权。

环境准备

运行本采集脚本需要以下基础环境：

Python 版本：建议 Python 3.6 及以上。
依赖库：
- selenium：用于浏览器自动化控制。
- webdriver-manager：可选，用于自动管理 ChromeDriver。
- requests：用于辅助 HTTP 请求（视具体需求而定）。
浏览器驱动：需安装与 Chrome 浏览器版本匹配的 ChromeDriver。
自定义模块：示例代码中引用了 BaseFrame、SeleniumTools、SpriderAccess 等类，这些通常属于项目内部的封装框架，实际使用时需替换为标准的日志记录、工具函数及数据库操作模块。

核心代码解析

1. 基础配置

脚本初始化阶段定义了采集目标、存储路径及并发参数。合理的配置能有效提升采集效率并防止资源浪费。

import os
import shutil
import time
from selenium import webdriver
from selenium.webdriver.common.by import By

# 采集的基础网址，可根据实际需求修改
base_url = "https://down.chinaz.com"
# 本地保存路径，建议使用绝对路径或环境变量
save_path = r"D:\Freedom\Sprider\ChinaZ\"
# 计划采集的资源数量
sprider_count = 88
# 起始序号，支持断点续传
sprider_start_count = 0
# 每页最大显示数量
max_pager = 15
# 当前已采集数量计数器
haved_sprider_count = 0
# 当前页码
page_count = 1

2. 核心采集逻辑

sprider 方法是主入口，负责根据分类名称构建 URL，初始化浏览器，并遍历分页列表。代码采用了无头模式（Headless）以减少资源占用。

def sprider(self, title_name="NET"):
    """
    采集主流程
    :param title_name: 分类名称 (PHP, NET, ASP, Python, Go 等)
    :return: None
    """
    
     title_name == : 
        .folder_name = 
        .second_column_name = 
     title_name == : 
        .folder_name = 
        .second_column_name = 
     title_name == : 
        .folder_name = 
        .second_column_name = 
     title_name == : 
        .folder_name = 
        .second_column_name = 
     title_name == : 
        .folder_name = 
        .second_column_name = 
    :
         ValueError()

    
    first_column_name = title_name
    second_folder_name = (.sprider_count) +  + .folder_name
    .file_path = .save_path + os.sep +  + os.sep + first_column_name + os.sep + second_folder_name
    .save_path = .save_path + os.sep +  + os.sep + first_column_name + os.sep + second_folder_name + os.sep + .folder_name

    
    down_path = .save_path + 
     os.path.exists(down_path):
        shutil.rmtree(down_path)
    os.makedirs(down_path)

    
     os.path.exists(.save_path):
        shutil.rmtree(.save_path)
    os.makedirs(.save_path)

    
    chrome_options = webdriver.ChromeOptions()
    diy_prefs = {
        : ,
        : down_path
    }
    chrome_options.add_experimental_option(, diy_prefs)
    chrome_options.add_argument()  
    chrome_options.add_argument()

    
    driver = webdriver.Chrome(options=chrome_options)
    driver.set_window_size(, )

    
    sprider_url = base_url + .(.second_column_name)
    driver.get(sprider_url)

    
    div_elem = driver.find_element(By.CLASS_NAME, )
    element_list = div_elem.find_elements(By.CLASS_NAME, )
    laster_pager_ul = driver.find_element(By.CLASS_NAME, )
    laster_pager_li = laster_pager_ul.find_elements(By.CLASS_NAME, )
    page_end_number = (laster_pager_li[(laster_pager_li) - ].text)

    
     .page_count <= (page_end_number):
        :
             .haved_sprider_count >= .sprider_count:
                ()
                
            
            
             .page_count > :
                next_url = base_url + .(.second_column_name, .page_count)
                driver.get(next_url)
                div_elem = driver.find_element(By.CLASS_NAME, )
                element_list = div_elem.find_elements(By.CLASS_NAME, )

            .sprider_detail(driver, element_list, .page_count, page_end_number, down_path)
            .page_count += 
         Exception  e:
            ()
            time.sleep()
            
        :

def sprider_detail(self, driver, element_list, page_count, max_page, down_path): """ 采集明细页面 :param driver: WebDriver 实例 :param element_list: 列表元素集合 :param page_count: 当前页码 :param max_page: 总页数 :param down_path: 临时下载路径 :return: None """ index = 0 element_array = [] element_length = len(element_list) # 提取链接与标题 for element in element_list: try: url_A_obj = element.find_element(By.CLASS_NAME, 'name-text') next_url = url_A_obj.get_attribute("href") coder_title = url_A_obj.get_attribute("title") element_array.append({"url": next_url, "title": coder_title}) except: continue # 计算起始索引 self.sprider_start_index = int(self.sprider_start_count) % int(self.max_pager) index = self.sprider_start_index while index < element_length: if self.haved_sprider_count >= self.sprider_count: break item = element_array[index] time.sleep(1) # 礼貌性延迟 index += 1 next_url = item["url"] coder_title = item["title"] try: driver.get(next_url) # 检查是否存在下载按钮 if not driver.find_elements(By.CLASS_NAME, "download-item"): driver.back() continue # 点击下载 driver.find_element(By.CLASS_NAME, "download-item").click() # 等待文件下载完成并判断 result = False for _ in range(240): # 最多等待 240 秒 files = os.listdir(down_path) if files and any(files[0].endswith(ext) for ext in [".zip", ".rar", ".gz", ".tgz"]): result = True break time.sleep(1) if result: srcFile = os.path.join(down_path, files[0]) file_ext = os.path.splitext(srcFile)[-1] dstFile = os.path.join(down_path, f"{coder_title}{file_ext}") os.rename(srcFile, dstFile) # 移动至最终目录 final_dst = os.path.join(self.save_path, f"{coder_title}{file_ext}") shutil.move(dstFile, final_dst) self.haved_sprider_count += 1 print(f"成功采集第 {self.haved_sprider_count} 个") else: print("下载超时或失败") driver.back() except Exception as e: print(f"详情处理错误：{e}")

Python 网络数据采集工具源码及开源项目推荐