一、简介
Web Scraper 是一款对新手友好的浏览器扩展工具,屏蔽了底层编程知识,只需鼠标点选即可快速搭建自定义爬虫。
这是常见的网页类型:
1.单页
单页是最常见的网页类型。我们日常阅读的文章,推文的详情页都可以归于这种类型。
2.分页列表
分页列表也是非常常见的网页类型。互联网的资源可以说是无限的,当我们访问一个网站时,不可能一次性把所有的资源都加载到浏览器里。现在的主流做法是先加载一部分数据,随着用户的交互操作(滚动、筛选、分页)才会加载下一部分数据。
3.筛选表单
表单类型的网页在 PC 网站上比较常见。这种网页的最大特点就是有很多筛选项,不同的选择会加载不同的数据,组合多变,交互较为复杂。比如说淘宝的购物筛选页。
知乎属于第二种网页滚动加载分页。
官方支持 Firefox 浏览器和 Chrome 浏览器,用 Edge 浏览器也可以,以下演示我用 Edge 浏览器来做:
二、安装教程

点进插件里获取更多扩展:

搜索 Web Scraper 进行安装。
大家在使用的时候如果只能爬取少量信息,通常是因为没有设置 Scroll 延迟,下面进行教学:
三、使用教程
- 第一步:选择一个帖子

按 F12 进入开发者模式:

接下来点击 create sitemap:

然后名字自定义,URL 填上面的网页链接:

















