如何利用简单的浏览器插件Web Scraper爬取知乎评论数据

优质文章学习记录

10 Apr 2026 — 6 min read

一、简单介绍：

Web Scraper 的优点就是对新手友好，在最初抓取数据时，把底层的编程知识和网页知识都屏蔽了，可以非常快的入门，只需要鼠标点选几下，几分钟就可以搭建一个自定义的爬虫。

我在过去的半年里，写了很多篇关于 Web Scraper 的教程，本文类似于一篇导航文章，把爬虫的注意要点和我的教程连接起来。最快一个小时，最多一个下午，就可以掌握 Web Scraper 的使用，轻松应对日常生活中的数据爬取需求。

像这样的网页数据，想要通过网页爬虫的方式获取数据，可以下载web scraper进行爬虫

这是常见的网页类型：

1.单页

单页是最常见的网页类型。

我们日常阅读的文章，推文的详情页都可以归于这种类型。作为网页里最简单最常见的类型，Web Scraper 教程里就拿豆瓣电影作为案例，入门 Web Scraper 的基础使用。

2.分页列表

分页列表也是非常常见的网页类型。

互联网的资源可以说是无限的，当我们访问一个网站时，不可能一次性把所有的资源都加载到浏览器里。现在的主流做法是先加载一部分数据，随着用户的交互操作（滚动、筛选、分页）才会加载下一部分数据。

教程里我费了较大的笔墨去讲解 Web Scraper 如何爬取不同分页类型网站的数据，因为内容较多，我放在本文的下一节详细介绍。

3.筛选表单

表单类型的网页在 PC 网站上比较常见。

这种网页的最大特点就是有很多筛选项，不同的选择会加载不同的数据，组合多变，交互较为复杂。比如说淘宝的购物筛选页。

知乎就是属于第二种的网页滚动加载分页

官方支持Fierfox浏览器和Chrome浏览器，用edge浏览器也可以，以下演示我用edge浏览器来做：

二、安装教程

点进插件里获取更多扩展：

搜索web scraper进行安装

大家在自己使用的时候是不是只能爬5条信息？那是因为你没有点scroll设置延迟，下面我来教学：

三、使用教程

1.第一步：选择一个帖子

按F12进入开发者模式：

接下来点create sitemap:

然后名字随便取，url填上面的网页链接：

然后点create sitemap

接下来创建新的选择器：

id随便取，type按照我图片上的来，元素滚动：

然后点击select选择全部的下滑框，像我图里的这样，然后点保存（我红框标注的）：

然后记得scroll记得也要选上，延迟选2000，最后save：

然后再点进content里面：

继续add:

然后直接一步到位吧，把最重要的data内容爬下来，id随便取，类型是text：

其它的像名字，点赞量评论量什么的你们自己可以设置同级别的add点击需要爬取的框,把信息都爬下来

接下来点select点击内容框，此时最重要的来了！！！！！按住shift点击下一个帖子的data内容，这时候往下翻会发现都自动选中了：

done后save

其实在爬之前也可以data preview一下：

然后他会自动向下翻页

最后点击抓取：

不用管直接start：

然后他会自己往下翻，等他结束关闭了：

最后数据会弹出来，然后点导出数据：

最后结果：

四、总结：

掌握了 Web Scraper 的使用，基本上可以应付学习工作中 90% 的数据爬取需求。相对于 python 爬虫，虽然灵活度上受到了限制，但是低廉的学习成本可以大大节省学习时间，快速解决手头的工作，提高整体的工作效率。综合来看，Web Scraper 还是非常值得去学习的。

希望大家多多点赞收藏支持~

尤雨溪官宣：前端新工具来了，比Prettier快45倍！

🚀 尤雨溪的"神秘包裹" 10月19日，Vue之父尤雨溪在Twitter上晒了一张截图，前端圈瞬间炸锅：格式化太慢？Lint卡到爆？不，我们全都要！这就好比你一直骑共享单车上班，突然有人送你一辆特斯拉——还是带自动驾驶的！ 📊 性能对比：这是开了外挂吧？ oxfmt：格式化界的"闪电侠" 🐢 Prettier：格式化1000个文件 = 45秒（够泡杯咖啡） 🚀 oxfmt：格式化1000个文件 = 1秒（咖啡还没反应过来）速度提升：45倍！对比Biome：快2-3倍对比Prettier：快45倍你的感受：从"等等等"到"好了？！" oxlint：代码检查界的"透视眼" 🐌 ESLint：

LazyLLM 多 Agent 应用全流程实践：从源码部署到可视化 Web 调试的低代码方案

LazyLLM 多 Agent 应用全流程实践：从源码部署到可视化 Web 调试的低代码方案前言：为什么选择 LazyLLM 构建多 Agent 大模型应用？ LazyLLM 作为低代码构建多 Agent 大模型应用的开发工具，可大幅降低大模型应用的开发与部署门槛。本文聚焦其在豆包模型的落地实践，将从源码部署豆包文本模型的完整配置步骤入手，延伸至官方 WebModule 启动可视化 Web 界面的实操流程，并配套精准性、简洁度等多维度的部署测试说明，为开发者提供可直接对照的实操指南，助力高效完成豆包模型在 LazyLLM 框架下的部署与验证。 LazyLLM 整体架构解析：三层联动的多 Agent 运行体系 LazyLLM 的架构分为三层级递进结构，各层级分工明确且联动协同，实现从应用开发到落地执行的全流程覆盖：上层（LazyPlatform AI 大模型应用开发平台）：核心含应用编排平台以可视化编排、发布、回流、调优的闭环完成应用构建迭代与平台管理模块通过租户、权限管理支撑多用户运维，是开发者的高效开发管理入口中层（

Ubuntu DeepSeek R1本地化部署 Ollama+Docker+OpenWebUI

1 显卡安装 #查看显卡型号 llh@study:~/soft$ lspci | grep -i nvidia 10:00.0 VGA compatible controller: NVIDIA Corporation TU116 [GeForce GTX 1660 SUPER] (rev a1) 10:00.1 Audio device: NVIDIA Corporation TU116 High Definition Audio Controller (rev a1) 10:00.2 USB controller: NVIDIA Corporation TU116 USB 3.1

Qt与Web混合编程：CEF与QCefView深度解析

Qt与Web混合编程：CEF与QCefView深度解析 * 1. 引言：现代GUI开发的融合趋势 * 2. Qt与Web集成方案对比 * 3. CEF核心架构解析 * 4. QCefView：Qt与CEF的桥梁 * 5. 实战案例：智能家居控制面板 * 6. 性能优化策略 * 7. 调试技巧大全 * 8. 安全加固方案 * 9. 未来展望：WebComponent集成 * 10. 结语 1. 引言：现代GUI开发的融合趋势在当今的桌面应用开发领域，本地GUI框架与Web技术的融合已成为不可逆转的趋势。Qt作为成熟的跨平台C++框架，与Web技术的结合为开发者提供了前所未有的灵活性： * 本地性能 + Web动态性 = 最佳用户体验 * 快速迭代的Web前端 + 稳定可靠的本地后端 * 跨平台一致性 + 现代UI效果 35%25%20%20%混合应用优势分布开发效率UI表现力跨平台性性能平衡 2. Qt与Web集成方案对比方案优点缺点适用场景Qt WebEngine官方支持，