一、简介
Web Scraper 是一款对新手友好的浏览器扩展插件,无需编程基础即可快速搭建爬虫。它屏蔽了底层编程知识,通过鼠标点选即可配置抓取规则。
常见的网页类型包括:
- 单页:如文章详情页,结构相对简单。
- 分页列表:资源无限,需通过滚动或分页加载数据。
- 筛选表单:包含多个筛选项,交互复杂。
知乎评论区属于典型的滚动加载分页类型。
二、安装教程
官方支持 Firefox、Chrome 和 Edge 浏览器。
- 打开浏览器扩展商店。
- 搜索 "Web Scraper" 并安装。
三、使用教程
1. 创建 Sitemap
- 打开目标帖子页面(如知乎)。
- 按 F12 进入开发者工具。
- 点击 Web Scraper 插件图标,选择 "Create sitemap"。
- 输入任意名称,URL 填入当前页面链接,点击 "Create sitemap"。
2. 配置选择器
滚动容器设置
- 在插件界面点击 "Add selector"。
- ID 自定义,Type 选择 "Element"。
- 点击 "Select",选中包含评论的滚动区域。
- 勾选 "Scroll",设置延迟(例如 2000ms),保存。
内容提取设置
- 在滚动容器下继续添加子选择器。
- ID 自定义,Type 选择 "Text"。
- 点击 "Select",选中具体的评论文本框。
- 按住 Shift 键点击下一个评论项,自动选中列表中的所有同类元素。
- 保存。
*提示:可在抓取前点击 "Data preview" 预览数据是否正确。
3. 开始抓取
- 确认配置无误后,点击 "Start"。
- 插件将自动向下滚动并抓取数据。
- 任务结束后关闭弹窗。
- 点击 "Export" 导出数据(CSV 或 JSON 格式)。
四、总结
掌握 Web Scraper 的使用可应对大部分日常数据爬取需求。相比 Python 爬虫,其学习成本更低,能快速解决工作问题,提高整体效率。


