简介
Web Scraper 是一款对新手非常友好的浏览器扩展。它屏蔽了底层的编程细节,让你通过鼠标点选就能快速搭建自定义爬虫。对于日常的数据抓取需求,通常只需几分钟即可上手。
网页结构千变万化,常见的有单页、分页列表和筛选表单。知乎的评论区属于典型的滚动加载分页类型,这类页面无法一次性获取所有数据,需要配合滚动操作来触发后续内容的加载。Web Scraper 在处理这类场景时表现尤为出色。
安装与准备
该插件支持 Chrome、Firefox 及 Edge 等主流浏览器。以 Edge 为例,打开浏览器扩展管理页面,搜索 Web Scraper 并安装即可。

安装完成后,点击图标进入插件界面。如果你发现只能抓取到少量数据(例如 5 条),通常是因为没有配置滚动延迟,导致页面未完全加载就停止了。
配置抓取规则
1. 创建站点地图
打开目标知乎帖子页面,按 F12 调出开发者工具。在 Web Scraper 面板中点击 Create Sitemap,输入任意名称并填入当前页面的 URL,随后点击创建。

2. 设置滚动选择器
为了抓取无限滚动的评论,我们需要创建一个类型为 Scroll 的选择器。这告诉爬虫在抓取完当前内容后向下滚动页面。
点击 Add Selector,命名为 scroll,类型选择 Scroll。在页面上选中底部的滚动区域(通常是整个窗口或评论容器),保存设置。务必勾选 Scroll 选项,并将延迟时间设置为 2000 毫秒左右,给服务器留出响应时间。

3. 提取评论内容
接下来配置具体的数据提取规则。再次添加选择器,这次用于抓取评论文本。命名如 comment_text,类型设为 Text。
在页面上选中评论的具体文本框。这里有个关键技巧:按住 Shift 键点击下一个评论框,可以批量选中所有同类元素,确保爬虫能识别列表结构。

你也可以根据需要添加其他字段,比如用户名、点赞数等,只需将对应元素添加到同一层级的选择器中即可。配置完成前,建议先点击 Data Preview 预览一下效果。
开始抓取与导出
一切准备就绪后,点击 Start Crawl。爬虫会自动执行滚动和抓取动作,直到达到设定的停止条件或手动中断。



