Python 爬虫实战:使用 Requests 与 Parsel 下载图片
环境使用
- Python 3.10
- PyCharm
模块使用
requests>>>pip install requests数据请求模块parsel>>>pip install parsel数据解析模块
模块安装:
Win + R 输入 cmd,输入安装命令 pip install 模块名。例如:pip install requests。
爬虫实现的基本流程
一、数据来源分析
明确需求
明确采集的网站以及数据内容。
网址:https://example.com/comic/...(示例地址)
数据:漫画内容(多张图片)。
抓包分析
在浏览器中进行操作,通过浏览器自带开发者工具分析需要的数据内容位置。
- 打开开发者工具:F12 或右键点击检查,选择 Network(网络)。
- 刷新网页,让网页数据内容重新加载一遍。
- 找到图片链接:过滤图片直接点击 Img。
- 通过关键字找到对应数据包:存在一个数据包含了整章漫画内容数据。
- 关键字:使用图片链接中一段参数即可。
数据包地址示例:
https://example.com/chapter/content/v1/?chapter_id=xxx&comic_id=xxx&format=1&quality=1&sign=xxx&type=1&uid=xxx
二、代码实现步骤
发送请求
模拟浏览器对于 url 地址发送请求。可以直接复制 User-Agent 伪装。
代码内容:
导入模块
import requests
import os
import parsel
import re
发送请求函数
def GetResponse(url):
# 模拟浏览器 (伪装)
headers = {
# User-Agent 用户代理,表示浏览器基本身份信息
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36'
}
response = requests.get(url=url, headers=headers)
response


