如何利用简单的浏览器插件Web Scraper爬取知乎评论数据

优质文章学习记录

07 Apr 2026 — 6 min read

一、简单介绍：

Web Scraper 的优点就是对新手友好，在最初抓取数据时，把底层的编程知识和网页知识都屏蔽了，可以非常快的入门，只需要鼠标点选几下，几分钟就可以搭建一个自定义的爬虫。

我在过去的半年里，写了很多篇关于 Web Scraper 的教程，本文类似于一篇导航文章，把爬虫的注意要点和我的教程连接起来。最快一个小时，最多一个下午，就可以掌握 Web Scraper 的使用，轻松应对日常生活中的数据爬取需求。

像这样的网页数据，想要通过网页爬虫的方式获取数据，可以下载web scraper进行爬虫

这是常见的网页类型：

1.单页

单页是最常见的网页类型。

我们日常阅读的文章，推文的详情页都可以归于这种类型。作为网页里最简单最常见的类型，Web Scraper 教程里就拿豆瓣电影作为案例，入门 Web Scraper 的基础使用。

2.分页列表

分页列表也是非常常见的网页类型。

互联网的资源可以说是无限的，当我们访问一个网站时，不可能一次性把所有的资源都加载到浏览器里。现在的主流做法是先加载一部分数据，随着用户的交互操作（滚动、筛选、分页）才会加载下一部分数据。

教程里我费了较大的笔墨去讲解 Web Scraper 如何爬取不同分页类型网站的数据，因为内容较多，我放在本文的下一节详细介绍。

3.筛选表单

表单类型的网页在 PC 网站上比较常见。

这种网页的最大特点就是有很多筛选项，不同的选择会加载不同的数据，组合多变，交互较为复杂。比如说淘宝的购物筛选页。

知乎就是属于第二种的网页滚动加载分页

官方支持Fierfox浏览器和Chrome浏览器，用edge浏览器也可以，以下演示我用edge浏览器来做：

二、安装教程

点进插件里获取更多扩展：

搜索web scraper进行安装

大家在自己使用的时候是不是只能爬5条信息？那是因为你没有点scroll设置延迟，下面我来教学：

三、使用教程

1.第一步：选择一个帖子

按F12进入开发者模式：

接下来点create sitemap:

然后名字随便取，url填上面的网页链接：

然后点create sitemap

接下来创建新的选择器：

id随便取，type按照我图片上的来，元素滚动：

然后点击select选择全部的下滑框，像我图里的这样，然后点保存（我红框标注的）：

然后记得scroll记得也要选上，延迟选2000，最后save：

然后再点进content里面：

继续add:

然后直接一步到位吧，把最重要的data内容爬下来，id随便取，类型是text：

其它的像名字，点赞量评论量什么的你们自己可以设置同级别的add点击需要爬取的框,把信息都爬下来

接下来点select点击内容框，此时最重要的来了！！！！！按住shift点击下一个帖子的data内容，这时候往下翻会发现都自动选中了：

done后save

其实在爬之前也可以data preview一下：

然后他会自动向下翻页

最后点击抓取：

不用管直接start：

然后他会自己往下翻，等他结束关闭了：

最后数据会弹出来，然后点导出数据：

最后结果：

四、总结：

掌握了 Web Scraper 的使用，基本上可以应付学习工作中 90% 的数据爬取需求。相对于 python 爬虫，虽然灵活度上受到了限制，但是低廉的学习成本可以大大节省学习时间，快速解决手头的工作，提高整体的工作效率。综合来看，Web Scraper 还是非常值得去学习的。

希望大家多多点赞收藏支持~

FPGA实现高效FFT/IFFT变换：IP核优化与Verilog测试验证

1. FFT与FPGA的完美结合在数字信号处理领域，快速傅里叶变换（FFT）就像是一把瑞士军刀，能够将时域信号快速转换到频域进行分析。而FPGA凭借其并行计算能力和可编程特性，成为实现FFT算法的理想平台。我曾在多个无线通信项目中采用FPGA实现FFT/IFFT处理，实测下来发现相比DSP处理器，FPGA方案在实时性方面能提升3-5倍性能。 FFT IP核是FPGA厂商提供的预封装模块，相当于一个"黑盒子"，开发者只需要配置参数就能直接使用。Xilinx的FFT IP核支持从64点到65536点的变换规模，吞吐量最高可达400MS/s。记得我第一次使用时，仅用半小时就完成了256点FFT的配置，比从零编写Verilog代码节省了至少两周时间。 2. FFT IP核的配置技巧 2.1 关键参数设置在Vivado中配置FFT IP核时，这几个参数需要特别注意： * 变换长度：根据信号带宽选择，常见256/512/1024点 * 数据精度：16位定点数适合大多数应用，高精度场景可用24位 * 架构选择：流水线架构（Pipelined）适合高速应用，突发架构（Burst

机器人、机械臂能听话，全靠这门被低估的神技：逆动力学

🧱 逆动力学核心概念与本质逆动力学是已知机器人末端执行器的运动轨迹，求解各关节所需驱动力矩的过程，是机器人运动控制的关键技术之一。其技术本质是在复杂多体系统中解决"运动输入-动力学建模-力矩输出"的映射问题，为机器人的精准运动控制提供理论基础。 🔍 逆动力学核心算法原理 🔹 牛顿-欧拉法（Newton-Euler） * 核心思想：递归计算每个连杆的动力学信息，从末端执行器回溯到基座（正递归），再从基座计算到末端执行器（逆递归） * 优势：计算效率高，适合实时控制场景 * 适用场景：工业机器人、机械臂等多自由度运动系统 * 关键公式： * 正递归：计算各连杆的速度、加速度和惯性力 * 逆递归：计算各关节的驱动力矩 🔹 拉格朗日法（Lagrange） * 核心思想：基于能量守恒原理，建立系统的拉格朗日函数，通过对时间求导得到运动方程 * 优势：物理意义清晰，便于分析系统特性 * 适用场景：机器人动力学建模、轨迹规划等离线计算场景 * 关键公式：τ=M(q)q¨+C(q,

Docker 安装 Neo4j 保姆级教程

Docker 安装 Neo4j 保姆级教程本教程适用于零基础用户，详细讲解如何在 Windows 或 Linux 环境下通过 Docker 安装并配置 Neo4j 图数据库。 Neo4j 官方 Docker 文档 1. 环境准备 * 已安装 Docker（Docker Desktop 官网） * Linux 和 Windows 均可 2. 创建挂载目录在宿主机上新建以下目录，用于数据持久化和配置挂载（以 Linux 为例，Windows 可用资源管理器新建文件夹）： mkdir -p /home/neo4j/data /home/neo4j/logs /home/neo4j/conf /home/

FPGA实现双线性插值缩放：代码与实现详解

fpga实现双线性插值缩放代码及资料在数字图像处理领域，双线性插值是一种常用的技术，用于图像的缩放、旋转和剪切等操作。而在硬件加速方面，FPGA（现场可编程门阵列）因其高度的并行处理能力和灵活的架构，成为实现这些算法的理想选择。本文将详细介绍如何在FPGA上实现双线性插值缩放，并附上相应的VHDL代码及分析，帮助读者更好地理解和实现这一功能。一、背景介绍图像缩放是图像处理中的基础操作，常见的缩放方法包括最近邻插值、双线性插值和双三次插值等。其中，双线性插值因其均衡的计算量和插值质量，广泛应用于各种场合。在FPGA上实现双线性插值，可以极大地提高图像处理的速度和效率，尤其是在实时处理和嵌入式系统中。二、双线性插值的基本原理双线性插值是一种通过线性插值实现二维数据点的估计方法。对于一个缩放后的像素点 (x, y)，我们首先找到与之最邻近的四个像素点 (x1, y1)、(x1, y2)、(x2, y1) 和 (x2, y2)。接下来，分别在x轴和y轴方向上进行线性插值，计算出该点的像素值。具体步骤如下： 1. 找到与目标点相邻的四个像素点。 2. 计算目标点在x