基于 steamdt_crawler.py 项目学习 Python 爬虫实战 | 极客日志

Python算法

基于 steamdt_crawler.py 项目学习 Python 爬虫实战

通过分析 steamdt_crawler.py 项目文件，系统讲解 Python 爬虫开发流程。内容涵盖动态网页（Playwright）与静态页面（Requests）的选择策略，Windows 编码修复，元素定位与交互，正则表达式数据提取，异常处理机制，以及 JSON 数据存储管理。文章结合面向对象设计与模块化实践，提供生产级爬虫的完整示例，适合具备 Python 基础的学习者进阶参考。

SqlMaster发布于 2026/4/6更新于 2026/5/2025 浏览

基于 steamdt_crawler.py 项目学习 Python 爬虫实战

以下是 steamdt_crawler.py 中的主要知识点整理，适合有 Python 基础的学习者学习爬虫：

一、爬虫基础与工具选择

1. 动态 vs 静态网页爬取

Playwright：用于处理 JavaScript 动态渲染的网页（现代 SPA 应用）
Requests + BeautifulSoup：用于静态 HTML 页面（传统网页）
代码中通过 PLAYWRIGHT_AVAILABLE 判断并自动降级

2. 环境与编码处理

# Windows 控制台编码修复
if sys.platform == 'win32':
    sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf-8')

解决 Windows 下中文乱码问题
使用 io.TextIOWrapper 重定向标准输出编码

二、Playwright 爬虫框架

1. 基本使用流程

with sync_playwright().start() as playwright:
    browser = playwright.chromium.launch(headless=True)
    page = browser.new_page()
    page.goto(url)

无头浏览器：headless=True
模拟用户代理：设置 user_agent
页面等待策略：wait_for_load_state('networkidle')

2. 元素定位与交互

page.inner_text('body')：获取页面文本
page.query_selector_all('tr, div')：CSS 选择器查找元素
page.evaluate()：执行 JavaScript 代码

三、数据提取与解析

1. 正则表达式（re 模块）

提取数字模式：r'([\d,]+\.\d+)'
提取百分比：r'([+-]?\d+\.?\d*%)'
提取带单位的值：r'([\d,]+\.\d+[万亿])'

2. 数据清洗与验证

def _extract_numeric_candidates(self, text: ) -> []:
    
       before    after:

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online

try:
    # 可能出错的操作
except PlaywrightTimeoutError:
    print("[WARNING] 页面加载超时")
except Exception as e:
    print(f"[ERROR] 其他错误：{e}")
    traceback.print_exc()

debug_filename = f"debug_page_{datetime.now().strftime('%Y%m%d_%H%M%S')}.txt"
with open(debug_filename, 'w', encoding='utf-8') as f:
    f.write(page_text)

with open(filename, 'w', encoding='utf-8') as f:
    json.dump(data, f, ensure_ascii=False, indent=2)

old_files = glob.glob("steamdt_data_*.json")
old_files.sort(key=os.path.getmtime, reverse=True)

# 方法 1：正则表达式匹配
# 方法 2：DOM 元素查找
# 方法 3：JavaScript 执行
# 方法 4：文本行分析

args = ['--disable-blink-features=AutomationControlled']

知识点	应用场景	学习价值
Playwright	动态网页爬取	现代爬虫必备技能
正则表达式	数据提取与清洗	文本处理核心能力
错误处理	爬虫稳定性	生产级代码要求
数据存储	结果持久化	数据处理完整流程
模块化设计	代码可维护性	工程化思维培养

基于 steamdt_crawler.py 项目学习 Python 爬虫实战

基于 steamdt_crawler.py 项目学习 Python 爬虫实战

一、爬虫基础与工具选择

1. 动态 vs 静态网页爬取

2. 环境与编码处理

二、Playwright 爬虫框架

1. 基本使用流程

2. 元素定位与交互

三、数据提取与解析

1. 正则表达式（re 模块）

2. 数据清洗与验证

更多推荐文章

相关免费在线工具

3. 多级板块数据解析

四、错误处理与调试

1. 异常捕获

2. 调试信息输出

五、数据存储与管理

1. JSON 格式存储

2. 文件管理

六、代码结构与设计模式

1. 面向对象编程

2. 模块化设计

七、高级技巧与最佳实践

1. 多策略数据提取

2. 等待与加载策略

3. 防反爬虫策略

学习建议

代码亮点总结

更多推荐文章

相关免费在线工具

基于 steamdt_crawler.py 项目学习 Python 爬虫实战

基于 steamdt_crawler.py 项目学习 Python 爬虫实战

一、爬虫基础与工具选择

1. 动态 vs 静态网页爬取

2. 环境与编码处理

二、Playwright 爬虫框架

1. 基本使用流程

2. 元素定位与交互

三、数据提取与解析

1. 正则表达式（re 模块）

2. 数据清洗与验证

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3. 多级板块数据解析

四、错误处理与调试

1. 异常捕获

2. 调试信息输出

五、数据存储与管理

1. JSON 格式存储

2. 文件管理

六、代码结构与设计模式

1. 面向对象编程

2. 模块化设计

七、高级技巧与最佳实践

1. 多策略数据提取

2. 等待与加载策略

3. 防反爬虫策略

学习建议

代码亮点总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具