【Web-Crawler-Steamdt】以项目文件steamdt_crawler.py学习python爬虫

Ne0inhk

23 Mar 2026 — 4 min read

https://github.com/stefanokratzdisteln-hash/Web-Crawler-Steamdt

以下是 steamdt_crawler.py 中的主要知识点整理，适合有 Python 基础的学习者学习爬虫：

一、爬虫基础与工具选择

1. 动态 vs 静态网页爬取

Playwright：用于处理 JavaScript 动态渲染的网页（现代 SPA 应用）
Requests + BeautifulSoup：用于静态 HTML 页面（传统网页）
代码中通过 PLAYWRIGHT_AVAILABLE 判断并自动降级

2. 环境与编码处理

# Windows 控制台编码修复if sys.platform =='win32': sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf-8')

解决 Windows 下中文乱码问题
使用 io.TextIOWrapper 重定向标准输出编码

二、Playwright 爬虫框架

1. 基本使用流程

with sync_playwright().start()as playwright: browser = playwright.chromium.launch(headless=True) page = browser.new_page() page.goto(url)

无头浏览器：headless=True
模拟用户代理：设置 user_agent
页面等待策略：wait_for_load_state('networkidle')

2. 元素定位与交互

page.inner_text('body')：获取页面文本
page.query_selector_all('tr, div')：CSS 选择器查找元素
page.evaluate()：执行 JavaScript 代码

三、数据提取与解析

1. 正则表达式（re 模块）

提取数字模式：r'([\d,]+\.\d+)'
提取百分比：r'([+-]?\d+\.?\d*%)'
提取带单位的值：r'([\d,]+\.\d+[万亿])'

2. 数据清洗与验证

def_extract_numeric_candidates(self, text:str)-> List[str]:# 过滤干扰项（如百分比）if'%'in before or'%'in after:continue

避免提取到环比数据等干扰项
通过位置判断数据类型

3. 多级板块数据解析

板块结构：热门板块 → 一级板块 → 二级板块 → 三级板块
数据格式：排名 + 名称 + 涨跌幅
去重机制：使用 set() 避免重复数据

四、错误处理与调试

1. 异常捕获

try:# 可能出错的操作except PlaywrightTimeoutError:print("[WARNING] 页面加载超时")except Exception as e:print(f"[ERROR] 其他错误: {e}") traceback.print_exc()

区分不同类型的异常
使用 traceback.print_exc() 打印完整堆栈

2. 调试信息输出

debug_filename =f"debug_page_{datetime.now().strftime('%Y%m%d_%H%M%S')}.txt"withopen(debug_filename,'w', encoding='utf-8')as f: f.write(page_text)

将页面内容保存到文件，便于分析网页结构
使用时间戳命名，避免覆盖

五、数据存储与管理

1. JSON 格式存储

withopen(filename,'w', encoding='utf-8')as f: json.dump(data, f, ensure_ascii=False, indent=2)

ensure_ascii=False：保留中文字符
indent=2：格式化输出，便于阅读

2. 文件管理

old_files = glob.glob("steamdt_data_*.json") old_files.sort(key=os.path.getmtime, reverse=True)

使用 glob 查找匹配的文件
按修改时间排序，保留最新文件
自动清理旧数据文件

六、代码结构与设计模式

1. 面向对象编程

类封装：SteamDTCrawler 类封装所有爬虫功能
上下文管理器：__enter__ 和 __exit__ 管理资源
类型注解：提高代码可读性和 IDE 提示

2. 模块化设计

分离关注点：
- extract_market_stats()：提取大盘数据
- extract_sections()：提取板块数据
- save_to_json()：保存数据
辅助方法：_extract_numeric_candidates() 等私有方法

七、高级技巧与最佳实践

1. 多策略数据提取

# 方法1：正则表达式匹配# 方法2：DOM 元素查找# 方法3：JavaScript 执行# 方法4：文本行分析

多种方法互补，提高爬虫健壮性
逐步降级策略

2. 等待与加载策略

wait_for_load_state('networkidle')：等待网络空闲
time.sleep(3)：显式等待 JS 执行
window.scrollTo()：滚动页面触发懒加载

3. 防反爬虫策略

args=['--disable-blink-features=AutomationControlled']

禁用自动化控制特征
模拟真实浏览器行为

学习建议

先掌握基础：Requests + BeautifulSoup 处理静态页面
再学动态爬虫：Playwright/Selenium 处理 JS 渲染页面
重视正则表达式：数据清洗的关键工具
学会调试：保存页面内容，分析网页结构
注意反爬虫：合理设置请求间隔，尊重 robots.txt

代码亮点总结

知识点	应用场景	学习价值
Playwright	动态网页爬取	现代爬虫必备技能
正则表达式	数据提取与清洗	文本处理核心能力
错误处理	爬虫稳定性	生产级代码要求
数据存储	结果持久化	数据处理完整流程
模块化设计	代码可维护性	工程化思维培养

这份代码是一个完整的生产级爬虫示例，涵盖了从爬取、解析、清洗到存储的全流程，非常适合作为学习爬虫的进阶案例。

PostgreSQL - 连接数配置：max_connections 优化与连接池

👋 大家好，欢迎来到我的技术博客！ 📚 在这里，我会分享学习笔记、实战经验与技术思考，力求用简单的方式讲清楚复杂的问题。 🎯 本文将围绕PostgreSQL这个话题展开，希望能为你带来一些启发或实用的参考。 🌱 无论你是刚入门的新手，还是正在进阶的开发者，希望你都能有所收获！文章目录 * PostgreSQL - 连接数配置：max_connections 优化与连接池 * 理解 PostgreSQL 连接机制 💡 * 连接的内存开销 📊 * 默认配置分析 🔍 * max_connections 参数详解 ⚙️ * 参数位置和修改方式 * 相关依赖参数 * 1. shared_buffers * 2. max_locks_per_transaction * 3. autovacuum_max_workers * 计算合理的 max_connections 值 🧮 * 连接池的重要性 🏊‍♂️ * 为什么需要连接池？ * 连接池的

Spring Boot + jQuery 前后端分离图书管理系统：从接口设计到问题排查

图书管理系统 1.1 准备前端代码在本地想要的可以去我的gitee中下载 library 的相关前端代码 1.2 约定前后端交互接口需求分析图书管理系统是⼀个相对较大一点的案例,咱们先实现其中的⼀部分功能. 用户登录 1. 登录接口 2. 图书列表展示字段说明: 字段说明id图书 IDbookName图书名称author作者count数量price定价publish图书出版社status图书状态 1 - 可借阅其他 - 不可借阅statusCN图书状态中文含义 3.4.3 服务器代码创建图书类 BookInfo @Data public class BookInfo { //图书ID private Integer id; //书名 private String bookName; //作者 private String

Linux网络 | 理解Web路径以及实现一个简单的helloworld网页

前言：本节内容承接上节课的http相关的概念，主要是实现一个简单的接收http协议请求的服务。这个程序对于我们理解后面的http协议的格式，报头以及网络上的资源的理解，以及本节web路径等等都有着重要作用。可以说我们就用代码来理解这些东西。那么废话不多说，现在开始我们的学习吧。 ps：本节内容建议先看一下上一篇文章http的相关概念哦：linux网络 | 深度学习http的相关概念-ZEEKLOG博客目录准备文件 makefile HttpServer.hpp 类内成员封装sockfd start ThreadRun 全部代码运行结果响应书写 Web路径准备文件首先准备文件：这里面Httpserver.cc用来运行接收http请求的服务。 HttpServer.hpp用来定义http请求。Log.hpp就是一个打印日志的小组件， Socket.hpp同样是套接字的组件。到使用直接调用相关接口即可。（Log.hpp和Socket.hpp如何实现不讲解，如果想要知道

Flutter 组件 ubuntu_service 适配鸿蒙 HarmonyOS 实战：底层系统服务治理，构建鸿蒙 Linux 子系统与守护进程交互架构

欢迎加入开源鸿蒙跨平台社区：https://openharmonycrossplatform.ZEEKLOG.net Flutter 组件 ubuntu_service 适配鸿蒙 HarmonyOS 实战：底层系统服务治理，构建鸿蒙 Linux 子系统与守护进程交互架构前言在鸿蒙（OpenHarmony）生态迈向工业互联、智能车载及深度客制化终端的背景下，如何实现 Flutter 应用对底层 Linux 服务（如 Systemd/DBus）的受控访问、在端侧治理长驻守护进程，已成为提升应用系统级集成能力的“技术门槛”。在鸿蒙设备这类强调内核级安全防护与微内核分布式调度的环境下，如果应用仅能实现表层 UI 的交互，而无法感知、重启或监控底层硬件驱动相关的后台服务，就无法在大屏中控、工业看板或服务器管理设备中胜任“控制塔”的角色。我们需要一种能够穿透沙箱壁垒、支持 DBus 通信协议且具备高可靠服务状态感知能力的系统治理方案。 ubuntu_service 为