跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
Python算法

Python 网络爬虫实战:批量抓取网页图片示例

介绍使用 Python 结合 requests 和 pyquery 库实现网页图片批量爬取的技术方案。内容包括环境准备、依赖安装、目标网站 URL 规律分析、HTML 解析逻辑以及本地文件保存的实现细节。通过完整代码示例展示如何模拟浏览器请求、提取图片链接并自动存储到指定目录,适用于学习网络爬虫基础开发流程。

并发大师发布于 2025/2/7更新于 2026/6/328 浏览
Python 网络爬虫实战:批量抓取网页图片示例

简介

本文介绍如何使用 Python 进行网页图片的批量爬取。通过 requests 库获取网页源码,利用 pyquery 解析 HTML 结构提取图片链接,并结合 os 库实现本地文件保存。文章涵盖了环境搭建、URL 规律分析、代码编写及异常处理等关键步骤。

环境准备

  • Python 3.x
  • PyCharm 或其他编辑器
  • 依赖库:os, requests, pyquery

安装库

CMD 安装方式

打开 CMD 控制台,依次输入以下命令:

pip install requests
pip install pyquery

其中,os 库为 Python 3 内置库,无需额外安装。

PyCharm 安装方式

在 PyCharm 中点击 File > Settings,进入解释器设置界面,添加所需库即可。

代码实现

主程序逻辑

首先确定目标网站 URL 规律。例如国内类别页面:

第一页:http://www.umei.cc/p/gaoqing/cn 第二页:http://www.umei.cc/p/gaoqing/cn/2.htm 第三页:http://www.umei.cc/p/gaoqing/cn/3.htm

以此类推,可通过循环拼接 URL 访问不同页码。

图片抓取函数

为了获取具体图片链接,需要解析详情页 HTML。使用 pyquery 定位到图片元素并提取 src 属性。

完整代码如下:

# -*- coding: utf-8 -*-
import requests
import os
from requests.packages import urllib3
from pyquery import PyQuery as pq


def get_url1(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) '
                      'AppleWebKit/537.36 (KHTML, like Gecko)'
                      ' Chrome/58.0.3029.110 Safari/537.36'
    }
    urllib3.disable_warnings()
    html = requests.get(url, headers=headers, verify=False).text
    doc = pq(html)
    a = doc('.TypeList .TypeBigPics')
     item  a.items():
        b = item.attr()
          b:
            
        html2 = requests.get(b, headers=headers, verify=).text
        doc2 = pq(html2)
        c = doc2()
         item2  c.items():
            d = item2.attr()
            (d)
            root = 
            path = root + d.split()[-]
            :
                  os.path.exists(root):
                    os.mkdir(root)
                  os.path.exists(path):
                    r = requests.get(d)
                     (path, )  f:
                        f.write(r.content)
                        f.close()
                        ()
                :
                    ()
             Exception:
                ()


 __name__ == :
    z = 
    url = 
    
     i  (z, z + ):
        url1 = url + (i) + 
        (url1)
        get_url1(url1)
for
in
'href'
if
not
continue
False
'.ImageBody img'
for
in
'src'
print
"D://pics22223//"
'/'
1
try
if
not
if
not
with
open
'wb'
as
print
"文件保存成功"
else
print
"文件已存在"
except
print
"爬取失败"
if
'__main__'
1
'http://www.umei.cc/p/gaoqing/cn/'
# 修改 z+1 可调整爬取页数
for
in
range
1
str
'.htm'
print

注意事项

  1. 请确保遵守相关法律法规及目标网站的 robots.txt 协议。
  2. 代码中的根目录路径可根据实际需求修改。
  3. 部分网站可能反爬,需适当调整请求频率或 User-Agent。

目录

  1. 简介
  2. 环境准备
  3. 安装库
  4. CMD 安装方式
  5. PyCharm 安装方式
  6. 代码实现
  7. 主程序逻辑
  8. 图片抓取函数
  9. -- coding: utf-8 --
  10. 注意事项
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • AI 产品经理如何构建金融场景大模型产品架构
  • 知识图谱增强大模型 GraphRAG 全面综述:架构、应用与未来方向
  • SpringAI 结合 Ollama 本地部署 Deepseek 实现对话机器人
  • 节点小宝 4.0 实测:告别网管式运维,打造极简远程工作流
  • RAG 优化方案与实践详解
  • LLM、RAG、MCP、AI Agent:图文详解
  • Rust 错误处理与测试:打造健壮可维护应用的核心实践
  • WhisperX 语音识别工具核心优势与应用解析
  • 基于 YOLOv8 的无人机枸杞病害检测数据集与训练实战
  • 从传统产品经理转型为 AI 产品经理的路径与方法
  • 张钹院士解析大模型的三大优势、一项局限与三大应用领域
  • 基于 FastGPT 与 MCP 协议构建工具增强型 AI Agent
  • C++ 嵌套类详解:概念、作用与实现细节
  • MCP、Agent、Skills:AI 时代三大核心概念深度解析
  • 光伏短期功率预测:云图特征提取与云移估计工程方案
  • VSCode Copilot 认证失败排查与修复实战
  • 大模型技术学习指南:从基础理论到高级应用路线
  • Claude 接入 MiniMax AI 大模型配置指南
  • MySQL 事务隔离级别详解与设置
  • 如何在项目中启用 MISRA C++ 检查

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • curl 转代码

    解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online

  • Base64 字符串编码/解码

    将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online

  • Base64 文件转换器

    将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online

  • Markdown转HTML

    将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online