如何利用简单的浏览器插件Web Scraper爬取知乎评论数据

优质文章学习记录

10 Apr 2026 — 6 min read

一、简单介绍：

Web Scraper 的优点就是对新手友好，在最初抓取数据时，把底层的编程知识和网页知识都屏蔽了，可以非常快的入门，只需要鼠标点选几下，几分钟就可以搭建一个自定义的爬虫。

我在过去的半年里，写了很多篇关于 Web Scraper 的教程，本文类似于一篇导航文章，把爬虫的注意要点和我的教程连接起来。最快一个小时，最多一个下午，就可以掌握 Web Scraper 的使用，轻松应对日常生活中的数据爬取需求。

像这样的网页数据，想要通过网页爬虫的方式获取数据，可以下载web scraper进行爬虫

这是常见的网页类型：

1.单页

单页是最常见的网页类型。

我们日常阅读的文章，推文的详情页都可以归于这种类型。作为网页里最简单最常见的类型，Web Scraper 教程里就拿豆瓣电影作为案例，入门 Web Scraper 的基础使用。

2.分页列表

分页列表也是非常常见的网页类型。

互联网的资源可以说是无限的，当我们访问一个网站时，不可能一次性把所有的资源都加载到浏览器里。现在的主流做法是先加载一部分数据，随着用户的交互操作（滚动、筛选、分页）才会加载下一部分数据。

教程里我费了较大的笔墨去讲解 Web Scraper 如何爬取不同分页类型网站的数据，因为内容较多，我放在本文的下一节详细介绍。

3.筛选表单

表单类型的网页在 PC 网站上比较常见。

这种网页的最大特点就是有很多筛选项，不同的选择会加载不同的数据，组合多变，交互较为复杂。比如说淘宝的购物筛选页。

知乎就是属于第二种的网页滚动加载分页

官方支持Fierfox浏览器和Chrome浏览器，用edge浏览器也可以，以下演示我用edge浏览器来做：

二、安装教程

点进插件里获取更多扩展：

搜索web scraper进行安装

大家在自己使用的时候是不是只能爬5条信息？那是因为你没有点scroll设置延迟，下面我来教学：

三、使用教程

1.第一步：选择一个帖子

按F12进入开发者模式：

接下来点create sitemap:

然后名字随便取，url填上面的网页链接：

然后点create sitemap

接下来创建新的选择器：

id随便取，type按照我图片上的来，元素滚动：

然后点击select选择全部的下滑框，像我图里的这样，然后点保存（我红框标注的）：

然后记得scroll记得也要选上，延迟选2000，最后save：

然后再点进content里面：

继续add:

然后直接一步到位吧，把最重要的data内容爬下来，id随便取，类型是text：

其它的像名字，点赞量评论量什么的你们自己可以设置同级别的add点击需要爬取的框,把信息都爬下来

接下来点select点击内容框，此时最重要的来了！！！！！按住shift点击下一个帖子的data内容，这时候往下翻会发现都自动选中了：

done后save

其实在爬之前也可以data preview一下：

然后他会自动向下翻页

最后点击抓取：

不用管直接start：

然后他会自己往下翻，等他结束关闭了：

最后数据会弹出来，然后点导出数据：

最后结果：

四、总结：

掌握了 Web Scraper 的使用，基本上可以应付学习工作中 90% 的数据爬取需求。相对于 python 爬虫，虽然灵活度上受到了限制，但是低廉的学习成本可以大大节省学习时间，快速解决手头的工作，提高整体的工作效率。综合来看，Web Scraper 还是非常值得去学习的。

希望大家多多点赞收藏支持~

Chat took too long to get ready.Please ensure...＜VSCode\Copilot＞

在VScode里面，应用Copilot提问，无法解决问题，该怎么解决呢？ 1、在vscode里面，按键 ctrl + shift + p，输入setting，即看到setting.json文件 2、在setting.json文件中添加下面两行 "github.copilot.nextEditSuggestions.enabled": true, "chat.extensionUnification.enabled":false, 参考图片25、26行 3、保存，重启vscode 4、重启后，点击vscode左下角人头像，查看是否有让授权Copilot的，如果有点击一下授权，解决！！！如果这样无法解决，建议检查账号是不是不能使用Copilot功能了

“AI痕迹太重怎么办？”15个提示词教你降低AIGC率，让写作更像人！

还在被AIGC率检测卡住？写得再好，也逃不过“AI痕迹”？别急，这篇文章教你15条最实用的“人类化”提示词，让你的写作摆脱机器人味，一键降重过检！ 🧠 为什么你写的AI文章“看起来就像AI写的”？在很多AIGC检测系统中，比如新版知网、Turnitin、Grammarly、GPTZero等，AI生成内容往往因为这些特征而中招： * 表达过于标准、学境思源，结构死板（比如“引言-三点论证-结尾”的模板） * 用词中性均衡，一键生成，缺乏语气变化 * 没有细节、论文初稿，acaids.com。比喻或非逻辑性插话 * 引用来源少或太“教科书式” * 缺乏真实感和主观思维这就导致了一个问题：AI写得虽然通顺，但“太工整”，反而容易被机器识别成AI！ 🛠️ 如何让AI帮你“写得不像AI”？15个逆转提示词来了！别再单靠“降重工具”打补丁。更聪明的做法是——从源头开始用“降AIGC率提示词”来让AI写得更像人。

qwen论文阅读笔记

论文： Qwen: https://arxiv.org/abs/2309.16609 相关论文： Qwen-vl: https://arxiv.org/pdf/2308.12966 qwen2-vl: https://arxiv.org/pdf/2409.12191 代码：https://github.com/QwenLM/Qwen2-VL 1、为什么要做这个研究（理论走向和目前缺陷） ? 之前LLaMA开源并且使用的是完全开源的数据，本文基于LLaMA做了后续的一些工作，整体看算法上的创新不大，工程上工作比较多。 2、他们怎么做这个研究（方法，尤其是与之前不同之处） ? 模型架构和LLaMA基本相同，但是准备了比较充分的数据，也加了一些小trick, 比如参考NTK理论根据上下文长度动态调整RoPE 的底数以支持推理更长上下文输入，qwen重点强调了对齐（SFT和RLHF）的重要性。 3、发现了什么（

GitHub机器人故障处理：从403错误到权限重构

GitHub机器人故障处理：从403错误到权限重构【免费下载链接】LightGBMmicrosoft/LightGBM: LightGBM 是微软开发的一款梯度提升机（Gradient Boosting Machine, GBM）框架，具有高效、分布式和并行化等特点，常用于机器学习领域的分类和回归任务，在数据科学竞赛和工业界有广泛应用。项目地址: https://gitcode.com/GitHub_Trending/li/LightGBM 在开源项目协作中，自动化工具是提升管理效率的关键。LightGBM项目近期遭遇了"no-response"机器人功能异常，导致issue标签管理失效。本文将系统分析这一故障从发现到解决的全过程，揭示GitHub工作流权限管理的核心要点，为同类项目提供可复用的故障处理方案。故障表现：标签管理失控的真实场景用户反馈聚焦三大异常现象项目维护者@guolinke首先注意到异常：在issue #4589中，用户@数据分析菜鸟已提供详细的日志信息，但"awaiting response"标签仍然存在。