一、工具简介
Web Scraper 是一款基于浏览器的无代码爬虫插件,对新手非常友好。它屏蔽了底层的编程细节,通过可视化操作即可快速搭建自定义爬虫。对于日常的数据采集需求,无需编写 Python 脚本也能高效完成。
网页结构通常分为单页、分页列表和筛选表单三种类型。知乎评论区属于典型的滚动加载分页类型,需要配置相应的选择器策略来遍历数据。
官方支持 Firefox 和 Chrome 浏览器,Edge 亦可使用。以下演示以 Edge 为例:

点击扩展图标获取更多功能,搜索 "web scraper" 进行安装。
二、核心配置与避坑
很多用户反馈只能爬取少量数据(如 5 条),通常是因为未设置滚动延迟导致触发反爬限制。在开始之前,务必注意 Scroll 选项的延迟设置。
三、实操步骤
1. 创建站点地图
选定目标帖子页面,按 F12 打开开发者工具。点击 Web Scraper 面板中的 "Create Sitemap"。

输入任意名称,URL 填入当前页面链接,点击 Create Sitemap。
2. 定义选择器
第一步:配置滚动容器
新建一个 Selector,ID 随意命名,Type 选择 "Element",勾选 "Scroll"。

点击 Select,选中页面向下滑动框区域。保存时记得勾选 Scroll 选项,并将 Delay 设置为 2000ms 左右,防止请求过快。

第二步:提取评论内容
进入 Content 标签页,添加新的 Selector。ID 随意,Type 选 "Text"。






