跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
Python算法

Python 数据采集与处理实战:从网络爬虫到 Excel 存储

Python 使用 requests 和 pandas 模块完成数据采集与 Excel 存储。通过 requests 发送 HTTP 请求获取图片及 API 数据,解析响应内容。利用 pandas 创建 DataFrame 对象,将结构化数据导出为 Excel 文件。教程涵盖库安装、代码实现及案例演示,适合初学者掌握网络爬虫与数据处理基础技能。

鲜活发布于 2025/11/21更新于 2026/6/225 浏览
Python 数据采集与处理实战:从网络爬虫到 Excel 存储

一、requests 爬虫模块

1. 安装依赖

pip install requests -i https://mirrors.aliyun.com/pypi/simple/

2. 代码实现

import requests

# 发送 HTTP GET 请求获取图片数据
result = requests.get("https://static-data.gaokao.cn/upload/school/20241126/1732611731_7971_thumb.jpg")

# 获取响应原始字节内容
img = result.content

# 以二进制写入模式打开文件并保存
with open("my_image.png", "wb") as f:
    f.write(img)

3. 核心方法说明

  • requests.get(): 向指定 URL 发送 HTTP GET 请求,用于获取服务器资源。
  • result.content: 获取 Response 对象的原始字节数据,适用于图片、视频等二进制文件。
  • open(..., "wb"): 以二进制写入模式创建或打开文件。
  • write(): 将内存中的数据写入已打开的文件对象。

注:上述操作可简化为 open("my_image.png", "wb").write(result.content)。

二、保存数据至 Excel

1. 安装依赖

pip install pandas

2. 代码实现

import pandas as pd

# 准备数据列表
data_list = [
    {"姓名": "张三", "性别": "男", "年龄": "18", "住址": "深圳市南山区"},
    {"姓名": "李四", "性别": "女", "年龄": "20", "住址": "广州市花都区"}
]

# 创建 DataFrame 对象
df = pd.DataFrame(data_list)

# 导出为 Excel 文件,index=False 表示不写入行索引
df.to_excel("data.xlsx", index=False)

3. 核心方法说明

  • import pandas: 导入数据分析库。
  • pd.DataFrame(): 创建二维表格数据结构,类似电子表格。
  • to_excel(): 将 DataFrame 数据导出为 Excel 格式文件。

三、实用案例:API 数据抓取与存储

代码实现

import pandas as pd
import requests

def get_users_from_api():
    try:
        # 调用公开 API 获取用户数据
        response = requests.get('https://jsonplaceholder.typicode.com/users')
        users_data = response.json()
        
        processed_data = []
        for user in users_data:
            user_info = {
                "姓名": user.get('name', ''),
                "用户名": user.get('username', ''),
                "邮箱": user.get('email', ''),
                "城市": user.get('address', {}).get('city', ''),
                "电话": user.get('phone', ''),
                "公司": user.get('company', {}).get('name', '')
            }
            processed_data.append(user_info)
        return processed_data
    except Exception as e:
        print(f"获取数据失败:{e}")
        return []

# 执行抓取并保存
users = get_users_from_api()
if users:
    df = pd.DataFrame(users)
    df.to_excel("user_data.xlsx", index=False)
    print("数据已保存到 Excel 文件!")
else:
    print("未能获取到数据")

四、总结

本文详细讲解了使用 requests 模块进行网络爬虫和 pandas 模块进行数据处理的全流程。内容包括基础图片下载、结构化数据存储以及 API 数据获取与 Excel 导出,涵盖了从零开始的学习路径。这些技能在日常开发、数据分析及自动化办公中具有较高的实用价值。

目录

  1. 一、requests 爬虫模块
  2. 1. 安装依赖
  3. 2. 代码实现
  4. 发送 HTTP GET 请求获取图片数据
  5. 获取响应原始字节内容
  6. 以二进制写入模式打开文件并保存
  7. 3. 核心方法说明
  8. 二、保存数据至 Excel
  9. 1. 安装依赖
  10. 2. 代码实现
  11. 准备数据列表
  12. 创建 DataFrame 对象
  13. 导出为 Excel 文件,index=False 表示不写入行索引
  14. 3. 核心方法说明
  15. 三、实用案例:API 数据抓取与存储
  16. 代码实现
  17. 执行抓取并保存
  18. 四、总结
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • 2025 AI 技术成长复盘:从机器学习到深度学习的实践思考
  • 基于 Leaflet 和天地图的长沙市免费运动场所 WebGIS 可视化
  • Python 临床知识问答与检索系统架构及实现
  • Apache IoTDB 数据删除:从单点精准清除到企业级生命周期管理
  • 一维与二维前缀和算法原理及代码实现
  • 递归算法实战:汉诺塔与合并有序链表详解
  • ComfyUI Mixlab 插件 Whisper.available False 报错修复
  • AI 热榜深度解析:平台生态、多智能体与评测体系趋势
  • Stable Diffusion XL 1.0 高性能推理:FP16 混合精度部署实测
  • FossFLOW:开源等距图表工具,构建立体技术文档
  • 微信接入 OpenClaw 开源 AI 智能体框架
  • Uniapp + Vue3 自定义 tabBar 实现方案
  • OpenClaw 开源个人 AI 助手部署指南:一键脚本 Docker npm 安装与中文配置
  • Axure 制作 AI 自动对话机器人原型
  • 我用 Megick 专业生图+专业视频功能后彻底服了!接入 GPT-Image-2 和 Seedance 顶级模型 2026 最强 AI 图像视频生成工具实测
  • Dubbo 服务降级与 Mock 机制实战
  • FPGA 雷达信号处理指南:从采样到目标检测的系统实现
  • Stable Diffusion 3.5 云端部署与图像生成实测
  • 基于 Walsh-Hadamard 变换的量子仿真硬件架构与地址生成器设计
  • Sim2Real 技术在机器人应用中的必要性分析

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • curl 转代码

    解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online

  • Base64 字符串编码/解码

    将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online

  • Base64 文件转换器

    将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online

  • Markdown转HTML

    将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online