如何利用简单的浏览器插件Web Scraper爬取知乎评论数据

如何利用简单的浏览器插件Web Scraper爬取知乎评论数据

一、简单介绍:

Web Scraper 的优点就是对新手友好,在最初抓取数据时,把底层的编程知识和网页知识都屏蔽了,可以非常快的入门,只需要鼠标点选几下,几分钟就可以搭建一个自定义的爬虫。

我在过去的半年里,写了很多篇关于 Web Scraper 的教程,本文类似于一篇导航文章,把爬虫的注意要点和我的教程连接起来。最快一个小时,最多一个下午,就可以掌握 Web Scraper 的使用,轻松应对日常生活中的数据爬取需求。

像这样的网页数据,想要通过网页爬虫的方式获取数据,可以下载web scraper进行爬虫

这是常见的网页类型:

1.单页

单页是最常见的网页类型。

我们日常阅读的文章,推文的详情页都可以归于这种类型。作为网页里最简单最常见的类型,Web Scraper 教程里就拿豆瓣电影作为案例,入门 Web Scraper 的基础使用。

2.分页列表

分页列表也是非常常见的网页类型。

互联网的资源可以说是无限的,当我们访问一个网站时,不可能一次性把所有的资源都加载到浏览器里。现在的主流做法是先加载一部分数据,随着用户的交互操作(滚动、筛选、分页)才会加载下一部分数据。

教程里我费了较大的笔墨去讲解 Web Scraper 如何爬取不同分页类型网站的数据,因为内容较多,我放在本文的下一节详细介绍。

3.筛选表单

表单类型的网页在 PC 网站上比较常见。

这种网页的最大特点就是有很多筛选项,不同的选择会加载不同的数据,组合多变,交互较为复杂。比如说淘宝的购物筛选页。

知乎就是属于第二种的网页滚动加载分页




官方支持Fierfox浏览器和Chrome浏览器,用edge浏览器也可以,以下演示我用edge浏览器来做:

二、安装教程

点进插件里获取更多扩展:

搜索web scraper进行安装

大家在自己使用的时候是不是只能爬5条信息?那是因为你没有点scroll设置延迟,下面我来教学:

三、使用教程

1.第一步:选择一个帖子

按F12进入开发者模式:

接下来点create sitemap:

然后名字随便取,url填上面的网页链接:

然后点create sitemap

接下来创建新的选择器:

id随便取,type按照我图片上的来,元素滚动:

然后点击select选择全部的下滑框,像我图里的这样,然后点保存(我红框标注的):

然后记得scroll记得也要选上,延迟选2000,最后save:

然后再点进content里面:

继续add:

然后直接一步到位吧,把最重要的data内容爬下来,id随便取,类型是text:

其它的像名字,点赞量评论量什么的你们自己可以设置同级别的add点击需要爬取的框,把信息都爬下来

接下来点select点击内容框,此时最重要的来了!!!!!按住shift点击下一个帖子的data内容,这时候往下翻会发现都自动选中了:

done后save

其实在爬之前也可以data preview一下:

然后他会自动向下翻页

最后点击抓取:

不用管直接start:

然后他会自己往下翻,等他结束关闭了:

最后数据会弹出来,然后点导出数据:

最后结果:

四、总结:

掌握了 Web Scraper 的使用,基本上可以应付学习工作中 90% 的数据爬取需求。相对于 python 爬虫,虽然灵活度上受到了限制,但是低廉的学习成本可以大大节省学习时间,快速解决手头的工作,提高整体的工作效率。综合来看,Web Scraper 还是非常值得去学习的。

希望大家多多点赞收藏支持~

Read more

Java 大视界 -- 基于 Java 的大数据可视化在企业人力资源管理与人才发展战略制定中的应用实战(432)

Java 大视界 -- 基于 Java 的大数据可视化在企业人力资源管理与人才发展战略制定中的应用实战(432)

Java 大视界 -- 基于 Java 的大数据可视化在企业人力资源管理与人才发展战略制定中的应用实战(432) * 引言: * 正文: * 一、企业人力资源管理的核心痛点与可视化价值 * 1.1 行业核心痛点(基于德勤《2024 人力资源数字化转型报告》) * 1.2 Java 大数据可视化的核心价值(实战验证适配性) * 二、技术架构设计实战 * 2.1 核心技术栈选型(生产压测验证版) * 三、核心可视化场景实战(附完整代码) * 3.1 场景一:核心人才流失预警看板 * 3.1.1 业务需求 * 3.1.2 数据准备(Flink SQL 指标计算) * 3.1.3 可视化实现代码(

By Ne0inhk
告别SQL恐惧症:我用飞算JavaAI的SQL Chat,把数据库变成了“聊天室”

告别SQL恐惧症:我用飞算JavaAI的SQL Chat,把数据库变成了“聊天室”

摘要 对于许多开发者而言,与数据库打交道意味着繁琐的语法记忆、复杂的联表查询以及令人头疼的性能优化。你是否曾希望,能用说人话的方式直接操作数据库?飞算JavaAI专业版的SQL Chat功能,正是这样一个革命性的工具。本文将分享我如何将它变为一个永不疲倦的“数据库专家同事”,用自然语言轻松搞定一切数据需求。 一、 痛点切入:我们与SQL的“爱恨纠葛” 还记得那次惨痛的经历吗?新接手一个庞大项目,急需从几十张表中查询一份用户行为报表。你对着模糊的需求文档,在Navicat或DBeaver中艰难地敲打着JOIN、WHERE和GROUP BY,一遍遍执行、调试,生怕一个疏忽就拉垮了线上数据库。这不仅是技能的考验,更是对耐心和细心程度的终极折磨。 尤其是面对以下场景,无力感尤甚: * 复杂查询:涉及多表关联、嵌套子查询、窗口函数,SQL语句长得像一篇论文。 * 性能优化:一条SQL跑起来慢如蜗牛,却不知从何下手添加索引或改写。 * 老项目溯源:面对命名随意的表和字段,理解业务逻辑如同破译密码。 我们需要的不是一个更漂亮的SQL客户端,而是一个能理解我们意图的“智能数据库搭档”

By Ne0inhk
飞算JavaAI炫技赛:一天完成学生成绩综合统计分析系统开发(含源码)

飞算JavaAI炫技赛:一天完成学生成绩综合统计分析系统开发(含源码)

目 录 * 引言 * 需求分析与规划 * 飞算 JavaAI 开发实录 * 优化与调试 * 成果展示 * 总结 引言 随着信息化教学的深入推进,学生成绩管理和分析系统已成为学校教学改革和质量提升的重要保障。这些系统可以帮助教师快速查询和分析考试成绩,从而识别学生的学习需求和差距,实施更加个性化的教学策略。 本项目正是在这种背景下产生的,旨在开发一个功能完备的学生成绩数据分析系统,实现成绩数据的统计、可视化和智能分析。 为了提高开发效率、减少重复劳动,我们在项目中引入了飞算 JavaAI 工具。飞算 JavaAI 是一款面向 Java 开发者的 AI 编程辅助工具,它能够通过智能对话帮助进行需求分析、功能设计并自动生成完整的项目源码。该工具支持一键生成可运行的 Spring Boot 工程,包括所有配置文件和代码骨架,并自动优化代码规范和逻辑错误。 这样,我们不仅可以省去大量样板代码的编写工作,还能够更专注于业务逻辑本身。同时,使用飞算 JavaAI 也符合我的个人学习目标:通过查看和优化工具生成的代码,深入理解 Spring

By Ne0inhk
通义千问插件:IDEA 中 Java 开发的 AI 赋能实战录

通义千问插件:IDEA 中 Java 开发的 AI 赋能实战录

在 AI 大模型重构开发范式的浪潮下,每一款 AI 编程工具的落地实践,都是一次技术效率与开发体验的双向探索。作为一名深耕 Java 后端的开发者,我在 Spring Boot 项目开发中,将 IDEA 与通义千问插件深度绑定,从 Maven 依赖排错到 Redis 配置优化,从代码重构到接口文档生成,这款插件已然成为我开发流程中不可或缺的 “超级助手”。在 AI 赋能编程语言挑战赛的契机下,我想结合真实开发场景,拆解通义千问插件与 Java 开发的适配逻辑,分享其解决开发痛点的实战经验,也谈谈对 AI 编程工具优化的思考。 一、工具适配:通义千问插件与 IDEA 的 Java 开发生态融合         相较于 Copilot 的多语言泛适配、CodeLlama 的本地化部署特性,通义千问插件最吸引我的,是其对国内开发者技术栈的精准贴合,

By Ne0inhk