跳到主要内容

极客日志面向AI+效率的开发者社区

首页博客 GitHub 精选镜像 AI 生图工具 UI配色美学隐私政策关于联系

搜索内容 / 工具 / 仓库 / 镜像...⌘K 搜索

基于 Web Scraper 插件爬取知乎评论数据指南 | 极客日志

HTML / CSS大前端

基于 Web Scraper 插件爬取知乎评论数据指南

Web Scraper 是一款对新手友好的浏览器扩展工具，无需编程基础即可快速搭建爬虫。演示了如何使用该插件抓取知乎评论数据，涵盖安装、选择器配置、滚动加载处理及数据导出步骤。通过设置 Scroll 延迟和 CSS 选择器，可有效应对分页列表类网页的数据采集需求，适合日常轻量级数据获取场景。

山野诗人发布于 2026/4/11更新于 2026/7/2141 浏览

基于 Web Scraper 插件爬取知乎评论数据指南

一、简介

Web Scraper 是一款对新手友好的浏览器扩展工具，屏蔽了底层编程知识，只需鼠标点选即可快速搭建自定义爬虫。

这是常见的网页类型：

1.单页

单页是最常见的网页类型。我们日常阅读的文章，推文的详情页都可以归于这种类型。

2.分页列表

分页列表也是非常常见的网页类型。互联网的资源可以说是无限的，当我们访问一个网站时，不可能一次性把所有的资源都加载到浏览器里。现在的主流做法是先加载一部分数据，随着用户的交互操作（滚动、筛选、分页）才会加载下一部分数据。

3.筛选表单

表单类型的网页在 PC 网站上比较常见。这种网页的最大特点就是有很多筛选项，不同的选择会加载不同的数据，组合多变，交互较为复杂。比如说淘宝的购物筛选页。

知乎属于第二种网页滚动加载分页。

官方支持 Firefox 浏览器和 Chrome 浏览器，用 Edge 浏览器也可以，以下演示我用 Edge 浏览器来做：

二、安装教程

文章配图

点进插件里获取更多扩展：

文章配图

搜索 Web Scraper 进行安装。

大家在使用的时候如果只能爬取少量信息，通常是因为没有设置 Scroll 延迟，下面进行教学：

三、使用教程

第一步：选择一个帖子

文章配图

按 F12 进入开发者模式：

文章配图

接下来点击 create sitemap：

文章配图

然后名字自定义，URL 填上面的网页链接：

文章配图

然后点击 create sitemap。

接下来创建新的选择器：

文章配图

ID 可自定义，Type 按照图片上的来，元素滚动：

文章配图

然后点击 Select 选择全部的下滑框，像我图里的这样，然后点击保存（红框标注）：

文章配图

然后记得 Scroll 也要选上，延迟设为 2000，最后 Save：

文章配图

然后再点进 Content 里面：

文章配图

继续 Add：

文章配图

然后直接配置最重要的 Data 内容，ID 可自定义，类型是 Text：

文章配图

其它的像名字、点赞量、评论量等，你们可以设置同级别的 Add 点击需要爬取的框，把信息都爬下来。

接下来点 Select 点击内容框，此时最重要！按住 Shift 点击下一个帖子的 Data 内容，这时候往下翻会发现都自动选中了：

文章配图

Done 后 Save。

其实在爬之前也可以 Data Preview 一下：

文章配图

然后他会自动向下翻页

最后点击抓取：

文章配图

不用管直接 Start：

文章配图

然后他会自己往下翻，等他结束关闭了：

文章配图

最后数据会弹出来，然后点导出数据：

文章配图

最后结果：

文章配图

四、总结

掌握了 Web Scraper 的使用，基本上可以应付学习工作中 90% 的数据爬取需求。相对于 Python 爬虫，虽然灵活度上受到了限制，但是低廉的学习成本可以大大节省学习时间，快速解决手头的工作，提高整体的工作效率。综合来看，Web Scraper 还是非常值得去学习的。

目录

一、简介
1.单页
2.分页列表
3.筛选表单
二、安装教程
三、使用教程
四、总结

免费图片AI生成工具免费生成了解详情

Magick API 一键接入全球大模型注册送1000万token查看
免费图片视频在线生成30秒，将你的创意变成现实开始设计
X/Twitter免费视频下载器免登陆无限额度免费视频解析下载了解详情
100+免费在线小游戏爽一把

极客日志微信公众号二维码

微信扫一扫，关注极客日志

微信公众号「极客日志V2」，在微信中扫描左侧二维码关注。展示文案：极客日志V2 zeeklog

更多推荐文章

拓扑排序算法原理与 C++ 实现
C++ 模板编程入门：函数与类模板详解
石头扫地机器人接入 HomeAssistant 的本地集成方案
C++ 类与对象进阶：默认成员函数详解
深入理解 SELinux：Linux 系统安全的核心门禁机制
C++ Web 编程
Python 常用编程代码示例与详解
基于 Unity 2022 与 UXR SDK 的 AR 消消乐游戏开发实践
TapNow 影视级 AI 视频平台实测：导演级精准控制与物理一致性
GitHub 启用双因素身份验证（2FA）配置指南：TOTP 动态验证码设置
【GitHub项目推荐--AI Novel Generator：智能小说创作助手】
ProtonVPN iOS/Mac 应用项目结构及配置教程
基于 LangChain-Chatchat 和 ChatGLM3 搭建私有化知识库实战
程序员接单转包现象：案例与行业思考
DeepSeek-R1 开源大模型推理优化实战方案
VS Code 远程连接服务器后 GitHub Copilot 失效排查指南
CSS 基础：display 属性详解
RTX50 系列显卡与 CUDA、PyTorch 及 Python 版本对应关系
Microsoft Visual C++ 运行库安装与 DLL 缺失修复指南
Redis Hash 类型详解及相关指令介绍

相关免费在线工具

Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online
HTML转Markdown
将 HTML 片段转为 GitHub Flavored Markdown，支持标题、列表、链接、代码块与表格等；浏览器内处理，可链接预填。在线工具，HTML转Markdown在线工具，online
JSON 压缩
通过删除不必要的空白来缩小和压缩JSON。在线工具，JSON 压缩在线工具，online
JSON美化和格式化
将JSON字符串修饰为友好的可读格式。在线工具，JSON美化和格式化在线工具，online