如何利用简单的浏览器插件Web Scraper爬取知乎评论数据

如何利用简单的浏览器插件Web Scraper爬取知乎评论数据

一、简单介绍:

Web Scraper 的优点就是对新手友好,在最初抓取数据时,把底层的编程知识和网页知识都屏蔽了,可以非常快的入门,只需要鼠标点选几下,几分钟就可以搭建一个自定义的爬虫。

我在过去的半年里,写了很多篇关于 Web Scraper 的教程,本文类似于一篇导航文章,把爬虫的注意要点和我的教程连接起来。最快一个小时,最多一个下午,就可以掌握 Web Scraper 的使用,轻松应对日常生活中的数据爬取需求。

像这样的网页数据,想要通过网页爬虫的方式获取数据,可以下载web scraper进行爬虫

这是常见的网页类型:

1.单页

单页是最常见的网页类型。

我们日常阅读的文章,推文的详情页都可以归于这种类型。作为网页里最简单最常见的类型,Web Scraper 教程里就拿豆瓣电影作为案例,入门 Web Scraper 的基础使用。

2.分页列表

分页列表也是非常常见的网页类型。

互联网的资源可以说是无限的,当我们访问一个网站时,不可能一次性把所有的资源都加载到浏览器里。现在的主流做法是先加载一部分数据,随着用户的交互操作(滚动、筛选、分页)才会加载下一部分数据。

教程里我费了较大的笔墨去讲解 Web Scraper 如何爬取不同分页类型网站的数据,因为内容较多,我放在本文的下一节详细介绍。

3.筛选表单

表单类型的网页在 PC 网站上比较常见。

这种网页的最大特点就是有很多筛选项,不同的选择会加载不同的数据,组合多变,交互较为复杂。比如说淘宝的购物筛选页。

知乎就是属于第二种的网页滚动加载分页




官方支持Fierfox浏览器和Chrome浏览器,用edge浏览器也可以,以下演示我用edge浏览器来做:

二、安装教程

点进插件里获取更多扩展:

搜索web scraper进行安装

大家在自己使用的时候是不是只能爬5条信息?那是因为你没有点scroll设置延迟,下面我来教学:

三、使用教程

1.第一步:选择一个帖子

按F12进入开发者模式:

接下来点create sitemap:

然后名字随便取,url填上面的网页链接:

然后点create sitemap

接下来创建新的选择器:

id随便取,type按照我图片上的来,元素滚动:

然后点击select选择全部的下滑框,像我图里的这样,然后点保存(我红框标注的):

然后记得scroll记得也要选上,延迟选2000,最后save:

然后再点进content里面:

继续add:

然后直接一步到位吧,把最重要的data内容爬下来,id随便取,类型是text:

其它的像名字,点赞量评论量什么的你们自己可以设置同级别的add点击需要爬取的框,把信息都爬下来

接下来点select点击内容框,此时最重要的来了!!!!!按住shift点击下一个帖子的data内容,这时候往下翻会发现都自动选中了:

done后save

其实在爬之前也可以data preview一下:

然后他会自动向下翻页

最后点击抓取:

不用管直接start:

然后他会自己往下翻,等他结束关闭了:

最后数据会弹出来,然后点导出数据:

最后结果:

四、总结:

掌握了 Web Scraper 的使用,基本上可以应付学习工作中 90% 的数据爬取需求。相对于 python 爬虫,虽然灵活度上受到了限制,但是低廉的学习成本可以大大节省学习时间,快速解决手头的工作,提高整体的工作效率。综合来看,Web Scraper 还是非常值得去学习的。

希望大家多多点赞收藏支持~

Read more

AI的提示词专栏:LLaMA-2 与 Mixtral 的提示词调优技巧

AI的提示词专栏:LLaMA-2 与 Mixtral 的提示词调优技巧

AI的提示词专栏:LLaMA-2 与 Mixtral 的提示词调优技巧 本文围绕 LLaMA-2 与 Mixtral 两大模型的提示词调优展开,先分析二者核心特性,再针对性给出适配原则与实战技巧。LLaMA-2 因参数规模差异大、通用领域训练数据为主、指令敏感度低,需按参数分层设计提示词、补充领域知识、强化指令约束,还提供了结构化指令、Few-Shot 示例等 5 个实战技巧;Mixtral 凭借混合专家架构、长上下文窗口、强多语言能力,需引导激活对应专家模块、合理处理长文本、规范多语言输出,配套专家引导指令等 4 个技巧。文章还对比二者调优重点与适用场景,指出常见误区并给出避坑方案,最后总结核心思路并提供后续实践建议,助力开发者优化提示词、发挥模型性能。 人工智能专栏介绍     人工智能学习合集专栏是 AI 学习者的实用工具。它像一个全面的 AI 知识库,把提示词设计、AI 创作、智能绘图等多个细分领域的知识整合起来。

深度解析如何在蓝耘智算平台深度部署开源图像和视频生成整合引擎:DiffSynth Studio

深度解析如何在蓝耘智算平台深度部署开源图像和视频生成整合引擎:DiffSynth Studio

DiffSynth Studio是什么? 阿里魔搭社区发布DiffSynth Studio:开源图像和视频生成整合引擎 在人工智能的快速发展中,生成式模型的应用场景已经逐渐拓展至多种领域,其中图像和视频生成成为了AI技术的一大亮点。为了进一步推动这一领域的发展,阿里魔搭社区近日发布了一款开源工具——DiffSynth Studio,它是专门用于图像和视频生成的整合引擎,旨在为开发者和创作者提供更加高效和便捷的生成式模型体验。github项目地址 1. DiffSynth Studio的概述 DiffSynth Studio是阿里魔搭社区推出的一款全新工具,它基于强大的Diffusion模型,支持图像与视频的生成。Diffusion模型本身通过逐渐向数据添加噪声然后再去噪声的过程来生成高质量的内容,而DiffSynth Studio则在此基础上进行了优化和创新,打造出一个高度集成的生成平台。 作为一款开源引擎,DiffSynth Studio不仅能够帮助用户更好地理解和利用最新的图像与视频生成技术,还能够大大降低开发门槛,让更多创作者能够轻松应用AI生成内容。 2. Di

Gitea的安装与简单使用

Gitea的安装与简单使用

一、Gitea简介 Gitea 是一个轻量级、易安装、运行快速的自建 Git 服务工具,类似于 GitHub 或 Gitee,但可以完全托管在自己的服务器或本地电脑上。它采用 Go 语言编写,支持跨平台(Windows、Linux、macOS)和多种架构(x86、amd64、ARM、PowerPC)。 Gitea 的主要特点: * 极易安装:只需下载一个可执行文件即可运行,无需复杂配置。 * 轻量高效:资源占用低,运行速度快。 * 跨平台支持:支持 Windows、Linux、macOS 等操作系统。 * 私有化部署:可以完全在局域网内使用,适合个人或团队私有代码管理。 * 类似 GitHub 的界面:提供直观的 Web 界面,方便管理仓库、用户和权限。

【拥抱AI】OpenClaw - 2026年GitHub最火的开源项目

【拥抱AI】OpenClaw - 2026年GitHub最火的开源项目

摘要 先看一张图,恐怖如斯。。。。 自2026年初以来,OpenClaw 在 GitHub 上经历了爆炸性的增长,短时间内积累了超过十万的星标,创造了平台历史上增长最快的记录之一,成为了全球开发者社区瞩目的焦点 。本文将从其市场热度与社区影响力入手,分析其迅速崛起的深层原因。随后,深入其技术内核,详细解析其采用的“微核+插件+网关”的宏观架构 并对基于 Node.js 与 TypeScript 的技术栈、WebSocket 通信机制以及模块化设计进行阐述。 OpenClaw 项目的核心定位是一个开源、可自托管的个人 AI 代理(Agent)与自动化平台,其根本目标是超越传统的问答式聊天机器人,成为一个能够主动执行任务、管理复杂工作流的“实干型”助手 。该项目由知名开发者 Peter Steinberger 发起,其发展历程伴随着名称的数次变更(从 Clawdbot 到 Moltbot,最终定名