【Web-Crawler-Steamdt】以项目文件steamdt_crawler.py学习python爬虫

【Web-Crawler-Steamdt】以项目文件steamdt_crawler.py学习python爬虫

https://github.com/stefanokratzdisteln-hash/Web-Crawler-Steamdt

在这里插入图片描述

以下是 steamdt_crawler.py 中的主要知识点整理,适合有 Python 基础的学习者学习爬虫:


一、爬虫基础与工具选择

1. 动态 vs 静态网页爬取

  • Playwright:用于处理 JavaScript 动态渲染的网页(现代 SPA 应用)
  • Requests + BeautifulSoup:用于静态 HTML 页面(传统网页)
  • 代码中通过 PLAYWRIGHT_AVAILABLE 判断并自动降级

2. 环境与编码处理

# Windows 控制台编码修复if sys.platform =='win32': sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf-8')
  • 解决 Windows 下中文乱码问题
  • 使用 io.TextIOWrapper 重定向标准输出编码

二、Playwright 爬虫框架

1. 基本使用流程

with sync_playwright().start()as playwright: browser = playwright.chromium.launch(headless=True) page = browser.new_page() page.goto(url)
  • 无头浏览器headless=True
  • 模拟用户代理:设置 user_agent
  • 页面等待策略wait_for_load_state('networkidle')

2. 元素定位与交互

  • page.inner_text('body'):获取页面文本
  • page.query_selector_all('tr, div'):CSS 选择器查找元素
  • page.evaluate():执行 JavaScript 代码

三、数据提取与解析

1. 正则表达式(re 模块)

  • 提取数字模式:r'([\d,]+\.\d+)'
  • 提取百分比:r'([+-]?\d+\.?\d*%)'
  • 提取带单位的值:r'([\d,]+\.\d+[万亿])'

2. 数据清洗与验证

def_extract_numeric_candidates(self, text:str)-> List[str]:# 过滤干扰项(如百分比)if'%'in before or'%'in after:continue
  • 避免提取到环比数据等干扰项
  • 通过位置判断数据类型

3. 多级板块数据解析

  • 板块结构:热门板块 → 一级板块 → 二级板块 → 三级板块
  • 数据格式:排名 + 名称 + 涨跌幅
  • 去重机制:使用 set() 避免重复数据

四、错误处理与调试

1. 异常捕获

try:# 可能出错的操作except PlaywrightTimeoutError:print("[WARNING] 页面加载超时")except Exception as e:print(f"[ERROR] 其他错误: {e}") traceback.print_exc()
  • 区分不同类型的异常
  • 使用 traceback.print_exc() 打印完整堆栈

2. 调试信息输出

debug_filename =f"debug_page_{datetime.now().strftime('%Y%m%d_%H%M%S')}.txt"withopen(debug_filename,'w', encoding='utf-8')as f: f.write(page_text)
  • 将页面内容保存到文件,便于分析网页结构
  • 使用时间戳命名,避免覆盖

五、数据存储与管理

1. JSON 格式存储

withopen(filename,'w', encoding='utf-8')as f: json.dump(data, f, ensure_ascii=False, indent=2)
  • ensure_ascii=False:保留中文字符
  • indent=2:格式化输出,便于阅读

2. 文件管理

old_files = glob.glob("steamdt_data_*.json") old_files.sort(key=os.path.getmtime, reverse=True)
  • 使用 glob 查找匹配的文件
  • 按修改时间排序,保留最新文件
  • 自动清理旧数据文件

六、代码结构与设计模式

1. 面向对象编程

  • 类封装SteamDTCrawler 类封装所有爬虫功能
  • 上下文管理器__enter____exit__ 管理资源
  • 类型注解:提高代码可读性和 IDE 提示

2. 模块化设计

  • 分离关注点
    • extract_market_stats():提取大盘数据
    • extract_sections():提取板块数据
    • save_to_json():保存数据
  • 辅助方法_extract_numeric_candidates() 等私有方法

七、高级技巧与最佳实践

1. 多策略数据提取

# 方法1:正则表达式匹配# 方法2:DOM 元素查找# 方法3:JavaScript 执行# 方法4:文本行分析
  • 多种方法互补,提高爬虫健壮性
  • 逐步降级策略

2. 等待与加载策略

  • wait_for_load_state('networkidle'):等待网络空闲
  • time.sleep(3):显式等待 JS 执行
  • window.scrollTo():滚动页面触发懒加载

3. 防反爬虫策略

args=['--disable-blink-features=AutomationControlled']
  • 禁用自动化控制特征
  • 模拟真实浏览器行为

学习建议

  1. 先掌握基础:Requests + BeautifulSoup 处理静态页面
  2. 再学动态爬虫:Playwright/Selenium 处理 JS 渲染页面
  3. 重视正则表达式:数据清洗的关键工具
  4. 学会调试:保存页面内容,分析网页结构
  5. 注意反爬虫:合理设置请求间隔,尊重 robots.txt

代码亮点总结

知识点应用场景学习价值
Playwright动态网页爬取现代爬虫必备技能
正则表达式数据提取与清洗文本处理核心能力
错误处理爬虫稳定性生产级代码要求
数据存储结果持久化数据处理完整流程
模块化设计代码可维护性工程化思维培养

这份代码是一个完整的生产级爬虫示例,涵盖了从爬取、解析、清洗到存储的全流程,非常适合作为学习爬虫的进阶案例。

Read more

PostgreSQL - 连接数配置:max_connections 优化与连接池

PostgreSQL - 连接数配置:max_connections 优化与连接池

👋 大家好,欢迎来到我的技术博客! 📚 在这里,我会分享学习笔记、实战经验与技术思考,力求用简单的方式讲清楚复杂的问题。 🎯 本文将围绕PostgreSQL这个话题展开,希望能为你带来一些启发或实用的参考。 🌱 无论你是刚入门的新手,还是正在进阶的开发者,希望你都能有所收获! 文章目录 * PostgreSQL - 连接数配置:max_connections 优化与连接池 * 理解 PostgreSQL 连接机制 💡 * 连接的内存开销 📊 * 默认配置分析 🔍 * max_connections 参数详解 ⚙️ * 参数位置和修改方式 * 相关依赖参数 * 1. shared_buffers * 2. max_locks_per_transaction * 3. autovacuum_max_workers * 计算合理的 max_connections 值 🧮 * 连接池的重要性 🏊‍♂️ * 为什么需要连接池? * 连接池的

By Ne0inhk
Spring Boot + jQuery 前后端分离图书管理系统:从接口设计到问题排查

Spring Boot + jQuery 前后端分离图书管理系统:从接口设计到问题排查

图书管理系统 1.1 准备前端代码 在本地想要的可以去我的gitee中下载 library 的相关前端代码 1.2 约定前后端交互接口 需求分析 图书管理系统是⼀个相对较大一点的案例,咱们先实现其中的⼀部分功能. 用户登录 1. 登录接口 2. 图书列表展示 字段说明: 字段说明id图书 IDbookName图书名称author作者count数量price定价publish图书出版社status图书状态 1 - 可借阅 其他 - 不可借阅statusCN图书状态中文含义 3.4.3 服务器代码 创建图书类 BookInfo @Data public class BookInfo { //图书ID private Integer id; //书名 private String bookName; //作者 private String

By Ne0inhk
Linux网络 | 理解Web路径 以及 实现一个简单的helloworld网页

Linux网络 | 理解Web路径 以及 实现一个简单的helloworld网页

前言:本节内容承接上节课的http相关的概念, 主要是实现一个简单的接收http协议请求的服务。这个程序对于我们理解后面的http协议的格式,报头以及网络上的资源的理解, 以及本节web路径等等都有着重要作用。 可以说我们就用代码来理解这些东西。 那么废话不多说, 现在开始我们的学习吧。         ps:本节内容建议先看一下上一篇文章http的相关概念哦:linux网络 | 深度学习http的相关概念-ZEEKLOG博客 目录  准备文件  makefile HttpServer.hpp 类内成员 封装sockfd start  ThreadRun  全部代码 运行结果 响应书写 Web路径  准备文件         首先准备文件: 这里面Httpserver.cc用来运行接收http请求的服务。 HttpServer.hpp用来定义http请求。Log.hpp就是一个打印日志的小组件, Socket.hpp同样是套接字的组件。 到使用直接调用相关接口即可。(Log.hpp和Socket.hpp如何实现不讲解, 如果想要知道

By Ne0inhk
Flutter 组件 ubuntu_service 适配鸿蒙 HarmonyOS 实战:底层系统服务治理,构建鸿蒙 Linux 子系统与守护进程交互架构

Flutter 组件 ubuntu_service 适配鸿蒙 HarmonyOS 实战:底层系统服务治理,构建鸿蒙 Linux 子系统与守护进程交互架构

欢迎加入开源鸿蒙跨平台社区:https://openharmonycrossplatform.ZEEKLOG.net Flutter 组件 ubuntu_service 适配鸿蒙 HarmonyOS 实战:底层系统服务治理,构建鸿蒙 Linux 子系统与守护进程交互架构 前言 在鸿蒙(OpenHarmony)生态迈向工业互联、智能车载及深度客制化终端的背景下,如何实现 Flutter 应用对底层 Linux 服务(如 Systemd/DBus)的受控访问、在端侧治理长驻守护进程,已成为提升应用系统级集成能力的“技术门槛”。在鸿蒙设备这类强调内核级安全防护与微内核分布式调度的环境下,如果应用仅能实现表层 UI 的交互,而无法感知、重启或监控底层硬件驱动相关的后台服务,就无法在大屏中控、工业看板或服务器管理设备中胜任“控制塔”的角色。 我们需要一种能够穿透沙箱壁垒、支持 DBus 通信协议且具备高可靠服务状态感知能力的系统治理方案。 ubuntu_service 为

By Ne0inhk