简介
Web Scraper 是一款基于浏览器的无代码爬虫工具,核心优势在于对非编程背景用户友好。它屏蔽了底层网络请求和 DOM 解析的复杂性,通过可视化界面配置选择器,几分钟内即可搭建自定义爬虫。
对于需要快速获取网页数据的场景,比如提取知乎评论、电商商品列表等,相比 Python 脚本,它的学习成本极低,能快速解决日常工作中的数据获取需求。
常见的网页类型包括单页静态内容、分页列表以及带筛选表单的动态页面。知乎评论区属于典型的滚动加载型分页结构,需要配合特定的滚动策略才能完整抓取。
环境准备
官方支持 Firefox 和 Chrome 浏览器,Edge 同样可用。以下演示以 Edge 为例:
- 打开浏览器扩展商店,搜索
Web Scraper并安装。 - 安装完成后,点击浏览器右上角的插件图标进入管理界面。

实操步骤
1. 创建站点地图
首先打开目标知乎帖子页面,按 F12 打开开发者工具。在 Web Scraper 侧边栏中点击 Create Sitemap。

输入任意名称,URL 填入当前页面的链接,点击 Create Sitemap 确认。
2. 配置根选择器
接下来定义要爬取的数据容器。点击 Add Selector,设置 ID(随意命名),Type 选择 Element,勾选 Scroll 选项。

点击 Select 按钮,在页面上框选包含所有评论的区域。注意不要只选单个评论,而是选中整个列表容器。

关键点: 必须勾选 Scroll 并设置延迟时间(建议 2000ms)。这是因为知乎采用无限滚动加载,不设置延迟会导致爬虫无法触发后续数据的加载,从而只能抓取到初始可见的少量数据。

保存后,该选择器会自动向下滚动页面,模拟用户行为。







