简介
Web Scraper 是一款对新手友好的浏览器扩展,它屏蔽了底层编程细节,通过可视化配置即可快速搭建爬虫。对于需要获取网页数据的场景,只需几分钟鼠标点选就能完成基础设置。
常见的网页类型包括单页、分页列表和筛选表单。知乎评论区属于典型的滚动加载分页类型,资源不会一次性全部加载,而是随交互操作逐步呈现。针对这类结构,我们需要配置特定的选择器与滚动机制。
官方支持 Chrome、Firefox 等主流浏览器,本示例以 Edge 浏览器为例进行演示。

安装指南
在浏览器扩展商店中搜索 "Web Scraper" 并安装。安装完成后,点击工具栏图标打开插件界面。

若遇到只能爬取少量数据的情况,通常是因为未设置滚动延迟,后续步骤会详细说明。
实操步骤
1. 创建 Sitemap
首先选择一个目标帖子页面,按 F12 进入开发者模式。在 Web Scraper 面板中点击 "Create Sitemap"。

输入任意名称,并将当前页面的 URL 填入链接框,点击创建。

2. 配置滚动选择器
为了抓取所有评论,需要创建一个能触发页面滚动的选择器。
点击 "Add Selector",ID 可自定义,Type 选择 "Scroll"。在页面上选中底部的滚动条区域(通常是整个内容容器),确保能覆盖所有评论加载区。

保存时务必勾选 "Scroll" 选项,并将 Delay 设置为 2000 毫秒左右。这能有效避免触发网站的反爬机制,让数据加载更稳定。

3. 定义数据字段
接下来配置需要提取的具体信息,例如评论内容、点赞数等。







