如何利用简单的浏览器插件Web Scraper爬取知乎评论数据

如何利用简单的浏览器插件Web Scraper爬取知乎评论数据

一、简单介绍:

Web Scraper 的优点就是对新手友好,在最初抓取数据时,把底层的编程知识和网页知识都屏蔽了,可以非常快的入门,只需要鼠标点选几下,几分钟就可以搭建一个自定义的爬虫。

我在过去的半年里,写了很多篇关于 Web Scraper 的教程,本文类似于一篇导航文章,把爬虫的注意要点和我的教程连接起来。最快一个小时,最多一个下午,就可以掌握 Web Scraper 的使用,轻松应对日常生活中的数据爬取需求。

像这样的网页数据,想要通过网页爬虫的方式获取数据,可以下载web scraper进行爬虫

这是常见的网页类型:

1.单页

单页是最常见的网页类型。

我们日常阅读的文章,推文的详情页都可以归于这种类型。作为网页里最简单最常见的类型,Web Scraper 教程里就拿豆瓣电影作为案例,入门 Web Scraper 的基础使用。

2.分页列表

分页列表也是非常常见的网页类型。

互联网的资源可以说是无限的,当我们访问一个网站时,不可能一次性把所有的资源都加载到浏览器里。现在的主流做法是先加载一部分数据,随着用户的交互操作(滚动、筛选、分页)才会加载下一部分数据。

教程里我费了较大的笔墨去讲解 Web Scraper 如何爬取不同分页类型网站的数据,因为内容较多,我放在本文的下一节详细介绍。

3.筛选表单

表单类型的网页在 PC 网站上比较常见。

这种网页的最大特点就是有很多筛选项,不同的选择会加载不同的数据,组合多变,交互较为复杂。比如说淘宝的购物筛选页。

知乎就是属于第二种的网页滚动加载分页




官方支持Fierfox浏览器和Chrome浏览器,用edge浏览器也可以,以下演示我用edge浏览器来做:

二、安装教程

点进插件里获取更多扩展:

搜索web scraper进行安装

大家在自己使用的时候是不是只能爬5条信息?那是因为你没有点scroll设置延迟,下面我来教学:

三、使用教程

1.第一步:选择一个帖子

按F12进入开发者模式:

接下来点create sitemap:

然后名字随便取,url填上面的网页链接:

然后点create sitemap

接下来创建新的选择器:

id随便取,type按照我图片上的来,元素滚动:

然后点击select选择全部的下滑框,像我图里的这样,然后点保存(我红框标注的):

然后记得scroll记得也要选上,延迟选2000,最后save:

然后再点进content里面:

继续add:

然后直接一步到位吧,把最重要的data内容爬下来,id随便取,类型是text:

其它的像名字,点赞量评论量什么的你们自己可以设置同级别的add点击需要爬取的框,把信息都爬下来

接下来点select点击内容框,此时最重要的来了!!!!!按住shift点击下一个帖子的data内容,这时候往下翻会发现都自动选中了:

done后save

其实在爬之前也可以data preview一下:

然后他会自动向下翻页

最后点击抓取:

不用管直接start:

然后他会自己往下翻,等他结束关闭了:

最后数据会弹出来,然后点导出数据:

最后结果:

四、总结:

掌握了 Web Scraper 的使用,基本上可以应付学习工作中 90% 的数据爬取需求。相对于 python 爬虫,虽然灵活度上受到了限制,但是低廉的学习成本可以大大节省学习时间,快速解决手头的工作,提高整体的工作效率。综合来看,Web Scraper 还是非常值得去学习的。

希望大家多多点赞收藏支持~

Read more

AIGC 版权争夺战:生成内容的归属、侵权与保护难题破解

AIGC 版权争夺战:生成内容的归属、侵权与保护难题破解

引言:算法创作时代的版权困局 当王某通过 AI 工具历经多次关键词调整生成的图片被科技公司擅自用于广告宣传时,当艺术家艾伦因 AI 创作的《太空歌剧院》被美国版权局拒绝登记而起诉时,AIGC(人工智能生成内容)引发的版权争议已从理论探讨演变为现实冲突。随着 ChatGPT、Stable Diffusion 等工具的普及,文本、图像、音频等生成内容呈爆炸式增长,却陷入 "创作易、确权难、维权难" 的困境。据行业测算,2025 年全球 AIGC 市场规模突破千亿美金,但超过 80% 的生成内容未进行版权登记,相关侵权纠纷同比增长 300%。本文结合最新司法案例与行业实践,剖析 AIGC 版权的归属逻辑、侵权认定标准及保护路径,为破解行业痛点提供思路。 一、版权归属迷局:谁是 AIGC 的 "

Qwen-Image-Edit-2511让AI绘画更有逻辑,空间关系更准

Qwen-Image-Edit-2511让AI绘画更有逻辑,空间关系更准 你有没有试过这样编辑一张图:想把照片里沙发左边的绿植换成一盏落地灯,结果AI不仅把灯放歪了,还让灯罩朝向窗外、影子却打在天花板上?或者给产品图换背景时,明明提示“纯白无影”,生成的阴影却像被风吹斜了三十度? 更让人挠头的是——你反复强调“人物站在门框正中央”,可AI总把人往右偏两厘米;你说“茶几在沙发前方一米处”,它却生成出茶几腿悬空半截的诡异构图。 这不是你提示词写得不够细,而是大多数图像编辑模型根本没真正理解‘左/右/前/后/上/下’这些空间关系。它们靠统计关联猜位置,而不是用几何逻辑推理布局。 直到我试了 Qwen-Image-Edit-2511 ——这个刚发布的增强版图像编辑镜像,第一次让我觉得:AI开始“看懂”画面里的三维世界了。 它不是又一个参数堆出来的“更大更快”,而是一次对空间语义的重新校准。下面这趟实测,我会带你亲眼看看:什么叫“让AI绘画真正讲逻辑”。 1. 它到底强在哪?不是修图,是重建空间认知 Qwen-Image-Edit-2511 是 Qwen-Image-Edit-2

昇腾NPU运行Llama模型全攻略:环境搭建、性能测试、问题解决一网打尽

昇腾NPU运行Llama模型全攻略:环境搭建、性能测试、问题解决一网打尽

背景 最近几年,AI 大模型火得一塌糊涂,特别是像 Llama 这样的开源模型,几乎成了每个技术团队都在讨论的热点。不过,这些"巨无霸"模型虽然能力超强,但对硬件的要求也高得吓人。这时候,华为的昇腾 NPU 就派上用场了。 说实话,昇腾 NPU 在 AI 计算这块确实有两把刷子。它专门为神经网络计算设计,不仅算力强劲,功耗控制得也不错,最关键的是灵活性很好,可以根据不同场景进行裁剪。所以,用它来跑大模型推理,理论上应该是个不错的选择。 为什么偏偏选了 Llama 来测试? 说到 Llama,这玩意儿现在可是开源界的"网红"。Meta 把它完全开源出来,社区生态搞得风生水起,各种优化和适配层出不穷。 其实选择 Llama 做测试,主要有这么几个考虑:

双险双解!Paperzz 降重 / 降 AIGC 功能实测:让论文远离重复率与 AI 痕迹双重危机

双险双解!Paperzz 降重 / 降 AIGC 功能实测:让论文远离重复率与 AI 痕迹双重危机

Paperzz-AI官网免费论文查重复率AIGC检测/开题报告/文献综述/论文初稿paperzz - 降重/降AIGChttps://www.paperzz.cc/weight 引言 在 2026 年的本科论文写作语境下,毕业生面临的学术考核早已不止 “查重率” 这一道关卡。随着各大高校相继升级学术检测系统,AIGC 生成痕迹识别与传统重复率查重形成 “双重筛查” 体系,成为论文定稿的核心门槛。不少学生陷入两难困境:手动改写易出现口语化、逻辑断裂问题;依赖普通工具降重,又会留下明显的 AI 生成痕迹,导致论文被标记为 “疑似 AIGC 创作”。 针对这一行业痛点,Paperzz 深耕学术写作辅助领域,推出了集 “智能降重”“降 AIGC”“AIGC + 重复率双降” 于一体的一站式解决方案。本文将基于 Paperzz 降重 / 降 AIGC