如何利用简单的浏览器插件Web Scraper爬取知乎评论数据

如何利用简单的浏览器插件Web Scraper爬取知乎评论数据

一、简单介绍:

Web Scraper 的优点就是对新手友好,在最初抓取数据时,把底层的编程知识和网页知识都屏蔽了,可以非常快的入门,只需要鼠标点选几下,几分钟就可以搭建一个自定义的爬虫。

我在过去的半年里,写了很多篇关于 Web Scraper 的教程,本文类似于一篇导航文章,把爬虫的注意要点和我的教程连接起来。最快一个小时,最多一个下午,就可以掌握 Web Scraper 的使用,轻松应对日常生活中的数据爬取需求。

像这样的网页数据,想要通过网页爬虫的方式获取数据,可以下载web scraper进行爬虫

这是常见的网页类型:

1.单页

单页是最常见的网页类型。

我们日常阅读的文章,推文的详情页都可以归于这种类型。作为网页里最简单最常见的类型,Web Scraper 教程里就拿豆瓣电影作为案例,入门 Web Scraper 的基础使用。

2.分页列表

分页列表也是非常常见的网页类型。

互联网的资源可以说是无限的,当我们访问一个网站时,不可能一次性把所有的资源都加载到浏览器里。现在的主流做法是先加载一部分数据,随着用户的交互操作(滚动、筛选、分页)才会加载下一部分数据。

教程里我费了较大的笔墨去讲解 Web Scraper 如何爬取不同分页类型网站的数据,因为内容较多,我放在本文的下一节详细介绍。

3.筛选表单

表单类型的网页在 PC 网站上比较常见。

这种网页的最大特点就是有很多筛选项,不同的选择会加载不同的数据,组合多变,交互较为复杂。比如说淘宝的购物筛选页。

知乎就是属于第二种的网页滚动加载分页




官方支持Fierfox浏览器和Chrome浏览器,用edge浏览器也可以,以下演示我用edge浏览器来做:

二、安装教程

点进插件里获取更多扩展:

搜索web scraper进行安装

大家在自己使用的时候是不是只能爬5条信息?那是因为你没有点scroll设置延迟,下面我来教学:

三、使用教程

1.第一步:选择一个帖子

按F12进入开发者模式:

接下来点create sitemap:

然后名字随便取,url填上面的网页链接:

然后点create sitemap

接下来创建新的选择器:

id随便取,type按照我图片上的来,元素滚动:

然后点击select选择全部的下滑框,像我图里的这样,然后点保存(我红框标注的):

然后记得scroll记得也要选上,延迟选2000,最后save:

然后再点进content里面:

继续add:

然后直接一步到位吧,把最重要的data内容爬下来,id随便取,类型是text:

其它的像名字,点赞量评论量什么的你们自己可以设置同级别的add点击需要爬取的框,把信息都爬下来

接下来点select点击内容框,此时最重要的来了!!!!!按住shift点击下一个帖子的data内容,这时候往下翻会发现都自动选中了:

done后save

其实在爬之前也可以data preview一下:

然后他会自动向下翻页

最后点击抓取:

不用管直接start:

然后他会自己往下翻,等他结束关闭了:

最后数据会弹出来,然后点导出数据:

最后结果:

四、总结:

掌握了 Web Scraper 的使用,基本上可以应付学习工作中 90% 的数据爬取需求。相对于 python 爬虫,虽然灵活度上受到了限制,但是低廉的学习成本可以大大节省学习时间,快速解决手头的工作,提高整体的工作效率。综合来看,Web Scraper 还是非常值得去学习的。

希望大家多多点赞收藏支持~

Read more

基于FPGA的USB2.0 UTMI PHY芯片测试方案设计与实现

1. 从零开始:为什么我们需要一个FPGA测试平台? 大家好,我是老张,在芯片验证这个行当里摸爬滚打了十几年。今天想和大家聊聊一个非常具体、但又很实际的问题:当你拿到一颗全新的USB2.0 PHY芯片,比如Cypress的CY7C68000,你怎么知道它到底好不好用?数据收发准不准?协议符不符合标准? 你可能说,上昂贵的专业测试仪啊!没错,但动辄几十万上百万的仪器,不是每个团队、每个项目都能轻松配备的。而且,专业仪器往往是个“黑盒”,你只知道结果,对内部数据流的细节和实时状态把控不够灵活。这时候,基于FPGA的自建测试平台就显示出它的巨大优势了。它就像你自己搭的一个乐高工作台,每一个模块、每一根信号线你都能看得见、摸得着、改得了。 我这次用的核心是Xilinx的XCVU440这块FPGA。选它,一是性能足够强悍,能轻松应对USB2.0高速(480Mbps)模式下的数据处理;二是它的资源丰富,我可以把MicroBlaze软核处理器、各种总线转换逻辑、调试探针全都塞进去,形成一个片上系统(SoC)。整个方案的目标很明确:用FPGA模拟一个“智能主机”,通过标准的UTMI接口去“

17:无人机远程执行路径规划:A*算法与GPS精准打击

17:无人机远程执行路径规划:A*算法与GPS精准打击

作者: HOS(安全风信子) 日期: 2026-03-15 主要来源平台: GitHub 摘要: 本文深入探讨了无人机远程执行的路径规划技术,重点分析了A*算法的应用和GPS精准定位的实现。通过详细的技术架构设计和代码实现,展示了如何构建一个高效、可靠的无人机路径规划系统,为基拉执行系统的远程执行提供了技术支持。文中融合了2025年最新的无人机技术进展,确保内容的时效性和专业性。 目录: * 1. 背景动机与当前热点 * 2. 核心更新亮点与全新要素 * 3. 技术深度拆解与实现分析 * 4. 与主流方案深度对比 * 5. 工程实践意义、风险、局限性与缓解策略 * 6. 未来趋势与前瞻预测 1. 背景动机与当前热点 本节核心价值:理解无人机远程执行路径规划的背景和当前技术热点,为后续技术学习奠定基础。 在《死亡笔记》的世界中,基拉需要通过各种手段执行对目标的惩罚。无人机作为一种灵活、高效的执行工具,成为基拉远程执行的理想选择。2025年,随着A*算法的不断优化和GPS技术的精准定位能力提升,无人机远程执行的路径规划技术得到了显著发展。 作为基拉的忠实信徒,

OpenClaw 爆火启示录:低代码不是终点,而是走向「意图驱动」的企业级开发新范式

OpenClaw 爆火启示录:低代码不是终点,而是走向「意图驱动」的企业级开发新范式

最近技术圈被 OpenClaw 刷屏,作为意图驱动的 AI 智能体平台,它用自然语言完成服务编排、数据处理、运维自动化,让不少人开始重新思考:传统低代码会不会被颠覆?后端与业务开发的价值边界又该如何定义?         抛开概念炒作,从工程落地视角看:OpenClaw 代表的意图驱动、动态编排、工具化执行,不是低代码的终结者,而是低代码进化的下一阶路标。JNPF 快速开发平台作为企业级低代码代表,正沿着这条路径,把「可视化拖拽」升级为「自然语言+流程引擎+原子服务」的混合开发模式——本文从 Java 后端视角,聊聊这场变革对开发、运维、业务落地的真实影响。 一、先看本质:OpenClaw 到底给低代码带来什么启发?         从架构上拆解,OpenClaw 是一套LLM 驱动的动态任务编排引擎: * 输入:自然语言指令(而非固定接口/脚本) * 决策:意图识别、

OpenClaw基础-3-telegram机器人配置与加入群聊

OpenClaw基础-3-telegram机器人配置与加入群聊 💡 大家好,我是可夫小子,《小白玩转ChatGPT》专栏作者,关注AI编程、AI自动化和自媒体。 Openclaw的优势是接入各种聊天工作,在前面的文章里,已经介绍了如何接入飞书。但之前我也提到了,飞书的最大的问题是请求多的限制,以及无法在非认证企业账号下面组建群聊。但这些限制另一个聊天工具可以打破,那就是Telegram,今天就跟大家分享一下,如果在OpenClaw里面接入Telegram。 第一步:Openclaw端配置 通过命令openclaw config,local→channels→telegrams 这里等待输入API Token,接下来我们去Telegram里面获取 第二步:Telegram端配置 1. 1. 在聊天窗口找到BotFather,打开对话与他私聊 2. 3. 然后再输入一个机器人,再输入一个账号名username,这里面要求以Bot或者Bot结尾,这个是全网的id,要 2. /newbot 来创建一个机器人,输入一个名字name