一、简介
Web Scraper 是一款对新手友好的浏览器插件,屏蔽了底层编程知识,只需鼠标点选即可快速搭建自定义爬虫。
常见的网页类型包括:
1. 单页
日常阅读的文章、推文详情页属于此类。Web Scraper 入门教程常以豆瓣电影为例。
2. 分页列表
互联网资源无限,主流做法是分批加载。随着用户交互(滚动、分页)加载下一部分数据。知乎评论属于此类滚动加载分页。
3. 筛选表单
PC 网站常见,包含多个筛选项,组合多变,交互复杂,如淘宝购物筛选页。
官方支持 Firefox、Chrome 和 Edge 浏览器。
二、安装教程
在浏览器扩展商店搜索 Web Scraper 进行安装。
注意:如果只能爬取少量信息,需设置滚动延迟。
三、使用教程
1. 初始化
- 选择一个帖子页面。
- 按 F12 进入开发者模式。
- 点击 Create Sitemap。
- 输入名称,URL 填写当前网页链接,点击 Create Sitemap。
2. 配置选择器
- 创建新的选择器。
- 滚动选择器:ID 自定义,Type 选择 Element,勾选 Scroll,延迟设为 2000ms,保存。
- 点击 Select 选择全部下滑框区域,保存。
3. 抓取内容
- 进入 Content 面板,添加新选择器。
- ID 自定义,Type 选择 Text,用于抓取核心数据。
- 点击 Select 点击内容框,按住 Shift 点击下一个目标元素,实现批量选中。
- 保存。
4. 执行抓取
- 点击 Start 开始抓取,插件会自动向下翻页。
- 等待结束关闭后,数据会弹出。
- 点击 Export 导出数据。
四、总结
掌握 Web Scraper 的使用,基本可应付学习工作中大部分的数据爬取需求。相对于 Python 爬虫,虽然灵活度受限,但低廉的学习成本可节省时间,快速解决工作问题,提高效率。


