如何利用简单的浏览器插件Web Scraper爬取知乎评论数据

如何利用简单的浏览器插件Web Scraper爬取知乎评论数据

一、简单介绍:

Web Scraper 的优点就是对新手友好,在最初抓取数据时,把底层的编程知识和网页知识都屏蔽了,可以非常快的入门,只需要鼠标点选几下,几分钟就可以搭建一个自定义的爬虫。

我在过去的半年里,写了很多篇关于 Web Scraper 的教程,本文类似于一篇导航文章,把爬虫的注意要点和我的教程连接起来。最快一个小时,最多一个下午,就可以掌握 Web Scraper 的使用,轻松应对日常生活中的数据爬取需求。

像这样的网页数据,想要通过网页爬虫的方式获取数据,可以下载web scraper进行爬虫

这是常见的网页类型:

1.单页

单页是最常见的网页类型。

我们日常阅读的文章,推文的详情页都可以归于这种类型。作为网页里最简单最常见的类型,Web Scraper 教程里就拿豆瓣电影作为案例,入门 Web Scraper 的基础使用。

2.分页列表

分页列表也是非常常见的网页类型。

互联网的资源可以说是无限的,当我们访问一个网站时,不可能一次性把所有的资源都加载到浏览器里。现在的主流做法是先加载一部分数据,随着用户的交互操作(滚动、筛选、分页)才会加载下一部分数据。

教程里我费了较大的笔墨去讲解 Web Scraper 如何爬取不同分页类型网站的数据,因为内容较多,我放在本文的下一节详细介绍。

3.筛选表单

表单类型的网页在 PC 网站上比较常见。

这种网页的最大特点就是有很多筛选项,不同的选择会加载不同的数据,组合多变,交互较为复杂。比如说淘宝的购物筛选页。

知乎就是属于第二种的网页滚动加载分页




官方支持Fierfox浏览器和Chrome浏览器,用edge浏览器也可以,以下演示我用edge浏览器来做:

二、安装教程

点进插件里获取更多扩展:

搜索web scraper进行安装

大家在自己使用的时候是不是只能爬5条信息?那是因为你没有点scroll设置延迟,下面我来教学:

三、使用教程

1.第一步:选择一个帖子

按F12进入开发者模式:

接下来点create sitemap:

然后名字随便取,url填上面的网页链接:

然后点create sitemap

接下来创建新的选择器:

id随便取,type按照我图片上的来,元素滚动:

然后点击select选择全部的下滑框,像我图里的这样,然后点保存(我红框标注的):

然后记得scroll记得也要选上,延迟选2000,最后save:

然后再点进content里面:

继续add:

然后直接一步到位吧,把最重要的data内容爬下来,id随便取,类型是text:

其它的像名字,点赞量评论量什么的你们自己可以设置同级别的add点击需要爬取的框,把信息都爬下来

接下来点select点击内容框,此时最重要的来了!!!!!按住shift点击下一个帖子的data内容,这时候往下翻会发现都自动选中了:

done后save

其实在爬之前也可以data preview一下:

然后他会自动向下翻页

最后点击抓取:

不用管直接start:

然后他会自己往下翻,等他结束关闭了:

最后数据会弹出来,然后点导出数据:

最后结果:

四、总结:

掌握了 Web Scraper 的使用,基本上可以应付学习工作中 90% 的数据爬取需求。相对于 python 爬虫,虽然灵活度上受到了限制,但是低廉的学习成本可以大大节省学习时间,快速解决手头的工作,提高整体的工作效率。综合来看,Web Scraper 还是非常值得去学习的。

希望大家多多点赞收藏支持~

Read more

WebAssembly 逆向分析:如何反编译 Wasm 二进制文件,修改游戏里的“金币数量”?

WebAssembly 逆向分析:如何反编译 Wasm 二进制文件,修改游戏里的“金币数量”?

标签: #WebAssembly #ReverseEngineering #Security #Wasm #GameHacking #CTF 🕵️‍♂️ 前言:Wasm 不是加密,只是二进制 WebAssembly 是一种基于堆栈虚拟机的二进制指令格式。它类似于汇编语言,但比 x86 汇编更抽象。 浏览器加载 .wasm 文件,编译为机器码运行。 逆向 Wasm 的两种核心思路: 1. 静态分析:将 .wasm 反汇编为 .wat (WebAssembly Text) 或伪 C 代码,分析逻辑。 2. 动态调试:利用浏览器开发者工具挂载断点,或直接修改 WebAssembly.Memory(线性内存)。 Wasm 加载与逆向流程 (Mermaid): 逆向攻击路径 Wasm 运行环境 1.

FastAPI 完全指南:现代 Python Web 开发的终极选择

FastAPI 完全指南:现代 Python Web 开发的终极选择

目录 1. 引言:为什么选择 FastAPI? 2. 环境搭建与基础配置 3. 核心概念深度解析 4. 路由与请求处理 5. 数据验证与序列化 6. 依赖注入系统 7. 数据库集成 8. 认证与安全 9. 中间件与后台任务 10. 测试与部署 11. 性能优化最佳实践 引言:为什么选择 FastAPI? FastAPI 是由 Sebastián Ramírez 于 2018 年创建的现代、高性能 Web 框架。它基于 Starlette(ASGI 工具集)和 Pydantic(数据验证库),为 Python 开发者带来了革命性的开发体验。 核心优势 特性说明极致性能与

Debian环境下libwebkit2gtk-4.1-0安装及依赖处理详解

Debian环境下 libwebkit2gtk-4.1-0 安装与依赖处理实战指南 你有没有遇到过这样的场景?刚写好的GTK+程序在开发机上跑得好好的,一部署到新系统就报错: error while loading shared libraries: libwebkit2gtk-4.1.so.0: cannot open shared object file 或者执行 apt install libwebkit2gtk-4.1-0 时,APT突然告诉你:“ E: Unable to locate package ”——明明文档里都说支持的,怎么就是装不上? 别急。这背后不是你的代码有问题,而是Linux包管理世界的“暗流”在作祟:复杂的依赖层级、版本锁定、软件源配置差异……尤其是像 libwebkit2gtk-4.1-0 这种深度集成于GNOME生态的核心渲染库,稍有不慎就会掉进“依赖地狱”

前端如何渲染 Markdown 格式:从基础到实战全指南

在前端开发中,我们常需要将 Markdown 文本(如接口文档、博客内容、用户评论)渲染成美观的 HTML 页面。不同于纯文本展示,Markdown 渲染需要借助专门的库解析语法规则,再结合样式实现可视化。本文将聚焦 “如何在前端页面中渲染 Markdown 内容”,从主流库选型到实战案例,带你快速掌握核心方法。 一、前端渲染 Markdown 的核心逻辑 Markdown 本质是 “轻量级标记语言”,无法直接被浏览器识别。前端渲染的核心流程是: 1. 解析:通过库将 Markdown 文本(如 # 标题)转换为 HTML 字符串(如 <h1>标题</h1>); 2. 渲染:将解析后的