Python 爬虫入门：批量下载网页图片实战

前言

在这个数据爆炸的时代，我们常常需要从网上下载一些精美的图片作为素材。如果一张张手动下载，不仅耗时耗力，还容易漏掉喜欢的图片。那么，有没有办法让程序自动帮我们完成这个任务呢？答案是肯定的！今天我就带大家用一个实际的例子，学习如何使用 Python 编写一个简单的爬虫程序，批量下载网页图片。更重要的是，我会分享我在开发过程中遇到的一个典型错误——403 Forbidden 错误，以及如何一步步解决它。

准备工作

在开始之前，我们需要了解几个核心概念：

请求对象（Request）：就像我们去图书馆借书需要出示借书证一样，访问网站也需要表明身份。请求对象就是用来告诉服务器"我是谁"。
网页源码（HTML）：每个网页背后都有一段 HTML 代码，它描述了网页的结构和内容。我们的目标就是从这段代码中找到图片的下载地址。
XPath 解析：这是一种从 HTML 中提取信息的工具，可以把它理解为一个精准的"定位器"，帮助我们快速找到需要的内容。

代码实现思路

首先展示完整代码：

import urllib.request
import lxml.etree

# 需求：下载前十页的图片
# https://sc.chinaz.com/tupian/haibiantupian.html (第 1 页)
# https://sc.chinaz.com/tupian/haibiantupian_2.html (第 2 页)

# 请求对象的定制
def create_url(page):
    # url 定制
    url = 'https://sc.chinaz.com/tupian/haibiantupian.html'
    if page != 1:
        url = 'https://sc.chinaz.com/tupian/haibiantupian_%s.html' % page
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/146.0.0.0 Safari/537.36 Edg/146.0.0.0',
        'Referer': 'https://sc.chinaz.com/tupian/'
    }
    request = urllib.request.Request(url=url, headers=headers)
    return request

def get_content(request):
    response = urllib.request.urlopen(request)
    content = response.read().decode('utf-8')
    return content

def down_load(content):
    # 下载图片
     os
    tree = lxml.etree.HTML(content)
    name_list = tree.xpath()
    src_list = tree.xpath()

    
    headers = {
        : ,
        : 
    }

    
     i  ((name_list)):
        name = name_list[i]
        src = src_list[i]
        src = src[:]
        url =  + src
        
        file_path = os.path.join(, name + )
        
        request = urllib.request.Request(url=url, headers=headers)
        response = urllib.request.urlopen(request)
        img_data = response.read()
        
         (file_path, )  f:
            f.write(img_data)
        ()

 __name__ == :
    begin = (())
    end = (())
     page  (begin, end + ):
        request = create_url(page)
        content = get_content(request)
        down_load(content)

Python 爬虫入门：批量下载网页图片实战

前言

准备工作

代码实现思路

更多推荐文章

相关免费在线工具

第一步：定制请求对象

第二步：获取网页内容

第三步：解析并下载图片

运行程序

踩坑经历：403 Forbidden 错误

问题描述

什么是 403 错误？

为什么会这样？

解决方案

常见问题与注意事项

为什么图片下载失败？

为什么网站不允许访问？

法律风险提示

总结

更多推荐文章

相关免费在线工具

Python 爬虫入门：批量下载网页图片实战

前言

准备工作

代码实现思路

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

第一步：定制请求对象

第二步：获取网页内容

第三步：解析并下载图片

运行程序

踩坑经历：403 Forbidden 错误

问题描述

什么是 403 错误？

为什么会这样？

解决方案

常见问题与注意事项

为什么图片下载失败？

为什么网站不允许访问？

法律风险提示

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具