Python 爬虫入门指南：从基础到 Scrapy 框架

一、基础入门

1.1 什么是爬虫

爬虫（Spider，又称网络爬虫），是指向网站或网络发起请求，获取资源后分析并提取有用数据的程序。

从技术层面来说，就是通过程序模拟浏览器请求站点的行为，把站点返回的 HTML 代码、JSON 数据、二进制数据（图片、视频）爬到本地，进而提取自己需要的数据，存放起来使用。

1.2 爬虫基本流程

用户获取网络数据的方式主要有两种：

方式 1：浏览器提交请求 —> 下载网页代码 —> 解析成页面显示给用户。
方式 2：模拟浏览器发送请求 (获取网页代码) —> 提取有用的数据 —> 存放于数据库或文件中。

爬虫要做的就是方式 2。

1.2.1 发起请求

使用 HTTP 库向目标站点发起请求，即发送一个 Request。Request 包含：请求头、请求体等。

注意：基础 Request 模块缺陷是不能执行 JS 和 CSS 代码，对于动态加载页面可能需要其他方案。

1.2.2 获取响应内容

如果服务器能正常响应，则会得到一个 Response。Response 包含：HTML、JSON、图片、视频等。

1.2.3 解析内容

解析 HTML 数据：正则表达式（RE 模块）、XPath（主要使用）、Beautiful Soup、CSS Selector。
解析 JSON 数据：json 模块。
解析二进制数据：以 wb 的方式写入文件。

1.2.4 保存数据

数据存储形式包括：数据库（MySQL、MongoDB、Redis）或文件的形式。

1.3 HTTP 协议请求与响应

HTTP 协议

Request：用户将自己的信息通过浏览器（Socket Client）发送给服务器（Socket Server）。
Response：服务器接收请求，分析用户发来的请求信息，然后返回数据（返回的数据中可能包含其他链接，如：图片、JS、CSS 等）。

PS：浏览器在接收 Response 后，会解析其内容来显示给用户，而爬虫程序在模拟浏览器发送请求然后接收 Response 后，是要提取其中的有用数据。

1.3.1 Request

请求方式 常见的请求方式：GET / POST。

请求的 URL URL（全球统一资源定位符），用来定义互联网上一个唯一的资源，例如：一张图片、一个文件、一段视频都可以用 URL 唯一确定。

请求头

User-Agent：请求头中如果没有 User-Agent 客户端配置，服务端可能将你当做一个非法用户 Host；一般做爬虫都会加上请求头。
Cookies：Cookie 用来保存登录信息，请求头注意携带。

请求头需要注意的参数：

Referrer：访问源至哪里来（一些大型网站，会通过 Referrer 做防盗链策略；所有爬虫也要注意模拟）。
User-Agent：访问的浏览器（要加上否则会被当成爬虫程序）。
Cookie：请求头注意携带。

请求体

如果是 GET 方式，请求体没有内容（GET 请求的请求体放在 URL 后面参数中，直接能看到）。
如果是 POST 方式，请求体是 format data。

PS：

Python 爬虫入门指南：从基础到 Scrapy 框架

一、基础入门

1.1 什么是爬虫

1.2 爬虫基本流程

1.2.1 发起请求

1.2.2 获取响应内容

1.2.3 解析内容

1.2.4 保存数据

1.3 HTTP 协议请求与响应

1.3.1 Request

更多推荐文章

相关免费在线工具

1.3.2 Response

二、基础模块

2.1 Requests

2.2 Re 正则表达式

2.3 XPath

2.4 BeautifulSoup

2.5 Json

2.6 Threading

三、方法实例

3.1 Get 方法实例

3.2 Post 方法实例

3.3 添加代理

3.4 获取 Ajax 类数据实例

3.5 使用多线程实例

四、爬虫框架

4.1 Scrapy 框架

4.2 Scrapy 架构图

4.3 Scrapy 主要组件

4.4 Scrapy 的运作流程

4.5 制作 Scrapy 爬虫 4 步曲

五、常用工具

5.1 Fiddler

5.2 XPath Helper

六、分布式爬虫

6.1 Scrapy-Redis

6.2 分布式策略

更多推荐文章

相关免费在线工具

Python 爬虫入门指南：从基础到 Scrapy 框架

一、基础入门

1.1 什么是爬虫

1.2 爬虫基本流程

1.2.1 发起请求

1.2.2 获取响应内容

1.2.3 解析内容

1.2.4 保存数据

1.3 HTTP 协议 请求与响应

1.3.1 Request

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

1.3.2 Response

二、基础模块

2.1 Requests

2.2 Re 正则表达式

2.3 XPath

2.4 BeautifulSoup

2.5 Json

2.6 Threading

三、方法实例

3.1 Get 方法实例

3.2 Post 方法实例

3.3 添加代理

3.4 获取 Ajax 类数据实例

3.5 使用多线程实例

四、爬虫框架

4.1 Scrapy 框架

4.2 Scrapy 架构图

4.3 Scrapy 主要组件

4.4 Scrapy 的运作流程

4.5 制作 Scrapy 爬虫 4 步曲

五、常用工具

5.1 Fiddler

5.2 XPath Helper

六、分布式爬虫

6.1 Scrapy-Redis

6.2 分布式策略

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

1.3 HTTP 协议请求与响应