Python 数据采集与处理实战:从网络爬虫到 Excel 存储
Python 使用 requests 和 pandas 模块完成数据采集与 Excel 存储。通过 requests 发送 HTTP 请求获取图片及 API 数据,解析响应内容。利用 pandas 创建 DataFrame 对象,将结构化数据导出为 Excel 文件。教程涵盖库安装、代码实现及案例演示,适合初学者掌握网络爬虫与数据处理基础技能。

Python 使用 requests 和 pandas 模块完成数据采集与 Excel 存储。通过 requests 发送 HTTP 请求获取图片及 API 数据,解析响应内容。利用 pandas 创建 DataFrame 对象,将结构化数据导出为 Excel 文件。教程涵盖库安装、代码实现及案例演示,适合初学者掌握网络爬虫与数据处理基础技能。

pip install requests -i https://mirrors.aliyun.com/pypi/simple/
import requests
# 发送 HTTP GET 请求获取图片数据
result = requests.get("https://static-data.gaokao.cn/upload/school/20241126/1732611731_7971_thumb.jpg")
# 获取响应原始字节内容
img = result.content
# 以二进制写入模式打开文件并保存
with open("my_image.png", "wb") as f:
f.write(img)
注:上述操作可简化为
open("my_image.png", "wb").write(result.content)。
pip install pandas
import pandas as pd
# 准备数据列表
data_list = [
{"姓名": "张三", "性别": "男", "年龄": "18", "住址": "深圳市南山区"},
{"姓名": "李四", "性别": "女", "年龄": "20", "住址": "广州市花都区"}
]
# 创建 DataFrame 对象
df = pd.DataFrame(data_list)
# 导出为 Excel 文件,index=False 表示不写入行索引
df.to_excel("data.xlsx", index=False)
import pandas as pd
import requests
def get_users_from_api():
try:
# 调用公开 API 获取用户数据
response = requests.get('https://jsonplaceholder.typicode.com/users')
users_data = response.json()
processed_data = []
for user in users_data:
user_info = {
"姓名": user.get('name', ''),
"用户名": user.get('username', ''),
"邮箱": user.get('email', ''),
"城市": user.get('address', {}).get('city', ''),
"电话": user.get('phone', ''),
"公司": user.get('company', {}).get('name', '')
}
processed_data.append(user_info)
return processed_data
except Exception as e:
print(f"获取数据失败:{e}")
return []
# 执行抓取并保存
users = get_users_from_api()
if users:
df = pd.DataFrame(users)
df.to_excel("user_data.xlsx", index=False)
print("数据已保存到 Excel 文件!")
else:
print("未能获取到数据")
本文详细讲解了使用 requests 模块进行网络爬虫和 pandas 模块进行数据处理的全流程。内容包括基础图片下载、结构化数据存储以及 API 数据获取与 Excel 导出,涵盖了从零开始的学习路径。这些技能在日常开发、数据分析及自动化办公中具有较高的实用价值。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online
将 HTML 片段转为 GitHub Flavored Markdown,支持标题、列表、链接、代码块与表格等;浏览器内处理,可链接预填。 在线工具,HTML转Markdown在线工具,online