Python 爬虫架构原理与汽车之家图片爬取实战

前言

1、爬虫架构

（1）爬虫调度器主要配合调用其他四个模块。所谓调度，就是调用其他模板。

（2）URL 管理器负责管理 URL 链接。URL 链接分为爬行链接和未爬行链接，需要 URL 管理器来管理。同时，它还为获取新的 URL 链接提供了接口。

（3）HTML 下载器是下载要抓取的页面的 HTML。

（4）HTML 解析器是从 HTML 源代码中获取爬行的数据，同时向 URL 管理器发送新的 URL 链接，并向数据存储器发送处理后的数据。

（5）数据存储器是将 HTML 下载器发送的数据存储在本地。

2、爬虫原理

在编写 Python 爬虫程序时，只需要做以下两件事：

发送 GET 请求，获取 HTML
解析 HTML，获取数据

3、使用 IP 代理

使用 Python 爬虫时，经常会遇到有反爬机制的网站。我们可以通过伪装 headers 爬行，但网站仍然可以获得您的 IP，从而禁止您的 IP 爬行信息。

爬虫为什么能快速爬取

Python 爬虫是最方便快捷获取数据的方法，不过很多小伙伴还没有切实地感受过。爬行数据基本上通过网页 URL 获得该网页的源代码，根据源代码筛选必要的信息。

1、爬虫的准备

requests：获取网页源代码
lxml：得到网页源代码中的指定数据

2、爬虫快速的原因

requests 可以很方便地让我们得到网页的源代码，同时 lxml 能够很快来筛选出我们所需要的信息。

3、完整代码实例

import requests

html = requests.get("https://coder-lida.github.io/")
print(html.text)

爬虫爬取网页

1、为什么需要用爬虫？

为其他程序提供数据源，如搜索引擎 (百度、Google 等)、数据分析、大数据等等。

2、Python 爬虫设计思路

（1）首先确定需要爬取的网页 URL 地址；

（2）通过 HTTP 协议来获取对应的 HTML 页面；

（3）提取 html 页面里的有用数据；

（4）如果是需要的数据就保存起来，如果是其他的 URL，那么就执行第二步。

3、Python 爬虫实例：爬取网页新闻内容

（1）确定爬取网页内容的网络地址

https://k.sina.com.cn/article_6192937794_17120bb42020015u42.html?from=health

（2）实施爬虫代码

import requests
from bs4 import BeautifulSoup

res = requests.get('https://k.sina.com.cn/article_6192937794_17120bb42020015u42.html?from=health')
res.encoding = 'utf-8'

soup = BeautifulSoup(res.text, 'html.parser')
title = soup.select('#artibody')[].text

(title)

Python 爬虫架构原理与汽车之家图片爬取实战

前言

1、爬虫架构

2、爬虫原理

3、使用 IP 代理

爬虫为什么能快速爬取

1、爬虫的准备

2、爬虫快速的原因

3、完整代码实例

爬虫爬取网页

1、为什么需要用爬虫？

2、Python 爬虫设计思路

3、Python 爬虫实例：爬取网页新闻内容

更多推荐文章

相关免费在线工具

4、解决网站访问频次过高问题

实战案例——爬取汽车之家网站上的图片

一、爬取汽车之家网站上的图片思路分析

二、设置爬虫代理 IP

三、爬取汽车之家网站上的图片具体代码

更多推荐文章

相关免费在线工具

Python 爬虫架构原理与汽车之家图片爬取实战

前言

1、爬虫架构

2、爬虫原理

3、使用 IP 代理

爬虫为什么能快速爬取

1、爬虫的准备

2、爬虫快速的原因

3、完整代码实例

爬虫爬取网页

1、为什么需要用爬虫？

2、Python 爬虫设计思路

3、Python 爬虫实例：爬取网页新闻内容

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

4、解决网站访问频次过高问题

实战案例——爬取汽车之家网站上的图片

一、爬取汽车之家网站上的图片思路分析

二、设置爬虫代理 IP

三、爬取汽车之家网站上的图片具体代码

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具