Python 爬虫入门：Requests 库十个小案例实战 | 极客日志

Python算法

Python 爬虫入门：Requests 库十个小案例实战

Python Requests 库的十个爬虫基础案例，涵盖环境安装、GET/POST/PUT 请求方法、参数传递、Headers 设置、文件保存及图片下载。内容包含代码示例、异常处理、Session 管理及反爬策略，并强调遵守网络伦理与 robots.txt 协议，旨在帮助初学者快速掌握网络爬虫核心技术。

墨染流年发布于 2025/2/6更新于 2026/6/218 浏览

Python 爬虫入门：Requests 库十个小案例实战

前言

网络爬虫（Web Crawler）是自动化抓取互联网信息的重要工具。在 Python 中，requests 库是最流行的 HTTP 客户端库之一，它简洁、高效且功能强大。本文将通过十个基础案例，带你掌握使用 requests 进行网页爬取的核心技能，包括安装配置、请求方法、参数传递、反爬处理及文件保存等。

环境准备

1. 安装 Requests 库

首先确保已安装 Python 环境。推荐使用国内镜像源加速下载。

Windows 用户： 打开命令提示符（CMD），建议以管理员身份运行以避免权限问题。

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple requests

Linux/Mac 用户： 类似 Windows，若遇到权限不足，请在命令前添加 sudo。

sudo pip install -i https://pypi.tuna.tsinghua.edu.cn/simple requests

2. 最佳实践建议

虚拟环境：建议在虚拟环境中开发，避免依赖冲突。
User-Agent：模拟浏览器请求头，降低被服务器拦截的风险。
异常处理：网络请求不稳定，务必使用 try-except 捕获异常。
遵守协议：尊重目标网站的 robots.txt 协议，控制请求频率。

核心案例详解

案例 1：基础 GET 请求与页面获取

这是最基础的爬虫示例，用于获取百度首页并打印状态码和文本内容。

import requests

# 发起 GET 请求
response = requests.get("http://www.baidu.com")

# 自动识别编码格式，防止中文乱码
response.encoding = response.apparent_encoding

# 输出状态码和内容
print(f"状态码：{response.status_code}")
print(response.text)

说明：status_code 为 200 表示请求成功。apparent_encoding 能根据 HTML 内容自动推断编码，比硬编码更稳健。

案例 2：GET 方法访问特定接口

使用 httpbin.org 测试 GET 请求的返回结构。

import requests

response = requests.get("http://httpbin.org/get")
print(f"状态码：{response.status_code}")
(response.text)

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online

import requests

response = requests.post("http://httpbin.org/post")
print(f"状态码：{response.status_code}")
print(response.text)

import requests

response = requests.put("http://httpbin.org/put")
print(f"状态码：{response.status_code}")
print(response.text)

import requests

# 使用 & 连接多个参数
url = "http://httpbin.org/get?name=hezhi&age=20"
response = requests.get(url)
print(f"状态码：{response.status_code}")
print(response.text)

import requests

data = {
    "name": "hezhi",
    "age": 20
}
response = requests.get("http://httpbin.org/get", params=data)
print(f"状态码：{response.status_code}")
print(response.text)

import requests

data = {
    "name": "hezhi",
    "age": 20
}
# 注意：POST 通常用 data 参数，这里演示 params 在 POST 中的行为
response = requests.post("http://httpbin.org/post", params=data)
print(f"状态码：{response.status_code}")
print(response.text)

import requests

# 不设置头部
response = requests.get("http://www.zhihu.com")
print(f"第一次访问状态码：{response.status_code}")

# 设置 User-Agent 伪装浏览器
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36"
}
response = requests.get("http://www.zhihu.com", headers=headers)
print(f"设置头部后状态码：{response.status_code}")
if response.status_code == 200:
    print("访问成功")

import requests

url = "http://www.baidu.com"
response = requests.get(url)

# 设置编码
response.encoding = "utf-8"

# 保存文件
file_path = "baidu.html"
with open(file_path, "w", encoding="utf-8") as f:
    f.write(response.text)

print(f"文件已保存至：{file_path}")

import requests

url = "https://www.baidu.com/img/baidu_jgylogo3.gif"
response = requests.get(url)

# 以二进制写入模式打开文件
with open("baidu_logo.gif", "wb") as f:
    f.write(response.content)

print("图片保存成功")

import requests
from requests.exceptions import Timeout, ConnectionError

try:
    response = requests.get("http://example.com", timeout=5)
    response.raise_for_status()  # 检查 HTTP 错误
except Timeout:
    print("请求超时")
except ConnectionError:
    print("网络连接错误")
except Exception as e:
    print(f"发生未知错误：{e}")

import requests

session = requests.Session()
# 发送请求，Cookie 会被自动保存在 session 中
response = session.get("http://example.com/login")
# 后续请求会自动携带之前的 Cookie
response = session.get("http://example.com/profile")
session.close()

import time
import requests

for i in range(5):
    requests.get("http://example.com")
    time.sleep(1)  # 每次请求间隔 1 秒

Python 爬虫入门：Requests 库十个小案例实战

Python 爬虫入门：Requests 库十个小案例实战

前言

环境准备

1. 安装 Requests 库

2. 最佳实践建议

核心案例详解

案例 1：基础 GET 请求与页面获取

案例 2：GET 方法访问特定接口

更多推荐文章

相关免费在线工具

案例 3：POST 方法提交数据

案例 4：PUT 方法更新资源

案例 5：GET 请求 URL 传参（字符串拼接）

案例 6：GET 请求参数传递（字典方式）

案例 7：POST 请求参数传递

案例 8：绕过反爬机制（设置 Headers）

案例 9：爬取 HTML 并保存到本地

案例 10：爬取图片并保存到本地

进阶技巧与注意事项

1. 异常处理

2. Session 管理

3. 请求频率控制

4. 法律与道德规范

结语

更多推荐文章

相关免费在线工具

Python 爬虫入门：Requests 库十个小案例实战

Python 爬虫入门：Requests 库十个小案例实战

前言

环境准备

1. 安装 Requests 库

2. 最佳实践建议

核心案例详解

案例 1：基础 GET 请求与页面获取

案例 2：GET 方法访问特定接口

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

案例 3：POST 方法提交数据

案例 4：PUT 方法更新资源

案例 5：GET 请求 URL 传参（字符串拼接）

案例 6：GET 请求参数传递（字典方式）

案例 7：POST 请求参数传递

案例 8：绕过反爬机制（设置 Headers）

案例 9：爬取 HTML 并保存到本地

案例 10：爬取图片并保存到本地

进阶技巧与注意事项

1. 异常处理

2. Session 管理

3. 请求频率控制

4. 法律与道德规范

结语

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具