Python Requests 网络爬虫基础与实战 | 极客日志

Python算法

Python Requests 网络爬虫基础与实战

综述由AI生成Python Requests 库在网络爬虫中的应用。内容包括 HTTP 的 GET 和 POST 请求方式及其参数处理，Response 对象的常用属性与方法，以及复杂请求场景下的配置技巧，如添加请求头、使用代理 IP、证书验证、超时设置和 Cookies 管理。此外，还涵盖了文件下载与上传的具体实现方案，提供了完整的代码示例和注意事项，帮助开发者快速掌握 Requests 库的核心功能。

RedisGeek发布于 2026/3/27更新于 2026/5/3120 浏览

Python Requests 库网络爬虫指南

Requests 是 Python 的一个实用 HTTP 客户端库，完全满足如今网络爬虫的需求。与 Urllib 对比，Requests 不仅具备 Urllib 的全部功能；在开发使用上，语法简单易懂，符合 Python 优雅、简洁的特性；在兼容性上，完全兼容 Python 2 和 Python 3。

请求方式

HTTP 的请求方式分为 GET 和 POST。

GET 请求

URL 语法如下：

# 不带参数
url_without_params = "https://www.baidu.com/"
# 带参数
url_with_params = "https://www.baidu.com/s?wd=keyword"

注：如果一个 URL 有多个参数，参数之间用'&'连接。Requests 对于带参数的 URL 请求有两种处理方式：

import requests

# 第一种方式
r = requests.get('https://www.baidu.com/s?wd=keyword')

# 第二种方式
url = 'https://www.baidu.com/s'
params = {'wd': 'keyword'}  # params 在 GET 请求中表示设置参数
r = requests.get(url, params=params)
print(r.url)

对于动态变化的参数，我们可以采用 %s 来占位的方式处理：

url_template = 'https://www.baidu.com/s?wd=%s'
search_term = 'keyword'
formatted_url = url_template % search_term
print(formatted_url)

输出结果：

https://www.baidu.com/s?wd=keyword

POST 请求

POST 请求常用来提交表单，表单数据就是 POST 的请求参数。在 Requests 中实现 POST 请求时，需要设置 data 参数，数据格式可以是字典、元组、列表或 JSON。

import requests
import json

# 字典类型
data = {'key1': 'value1', 'key2': 'value2'}

# 元组或列表（这里应该是元组的列表）
tuple_list = (('key1', 'value1'), (, ))


data_json = json.dumps(data)
r = requests.post(, data=data_json)
(r.text)

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online

{
  "name": "John Doe",
  "age": 30,
  "is_student": false,
  "hobbies": ["reading", "gaming", "sports"],
  "address": {
    "street": "123 Main St",
    "city": "Anytown",
    "state": "CA",
    "zip": "12345"
  }
}

import requests

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3",
    "Accept-Language": "en-US,en;q=0.9",
    "Accept-Encoding": "gzip, deflate, br"
}

response = requests.get("https://example.com", headers=headers)
print(response.text)

import requests

proxies = {
    "http": "http://123.45.67.89:8080",
    "https": "https://123.45.67.89:8080"
}

response = requests.get("https://example.com", proxies=proxies)
print(response.text)

import requests
response = requests.get("https://example.com", verify=False)
print(response.text)

import requests
response = requests.get("https://example.com", verify="/path/to/certificate.pem")
print(response.text)

import requests

try:
    response = requests.get("https://example.com", timeout=5)
    print(response.text)
except requests.exceptions.Timeout:
    print("请求超时")

import requests

temp_cookies = "cookie1=value1; cookie2=value2"
cookies = {}
for cookie in temp_cookies.split("; "):
    key, value = cookie.split("=")
    cookies[key] = value

response = requests.get("https://example.com", cookies=cookies)
print(response.text)

import requests

response = requests.get("https://example.com")
cookies = response.cookies
print(cookies)

response = requests.get("https://example.com", cookies=cookies)
print(response.text)

import json

# 写入文件
with open("cookies.json", "w") as f:
    json.dump(cookies, f)

# 读取文件
with open("cookies.json", "r") as f:
    cookies = json.load(f)
print(cookies)

import requests

url = 'https://www.python.org/static/img/python-logo.png'
r = requests.get(url)

if r.status_code == 200:
    with open('python.jpg', 'wb') as f:
        f.write(r.content)
    print("图片已成功下载并保存为 python.jpg")
else:
    print("请求失败，状态码：", r.status_code)

url = 'https://weibo.cn/imblog/sendmblog?rl=0&st=bd6702'
cookies = {'xxx': 'xxx'}
files = {
    'content': (None, 'Python 爬虫'),
    'pic': ('pic', open('test.png', 'rb')),  # 注意：实际使用时需确保文件路径正确
    'visible': (None, '0')
}
r = requests.post(url, files=files, cookies=cookies)
print(r.status_code)

Python Requests 网络爬虫基础与实战

Python Requests 库网络爬虫指南

请求方式

GET 请求

POST 请求

更多推荐文章

相关免费在线工具

什么是 JSON

requests.Response 对象的属性和方法

1. 基本响应信息

2. 响应内容

4. 重定向和跳转

5. 性能和资源管理

6. 迭代和流式处理

7. 请求信息

8. 异常处理

提交复杂的请求

一、添加请求头

二、使用代理 IP

三、证书验证

四、超时设置

五、使用 Cookies

下载与上传文件

文件下载

文件上传

分析请求

更多推荐文章

相关免费在线工具

Python Requests 网络爬虫基础与实战

Python Requests 库网络爬虫指南

请求方式

GET 请求

POST 请求

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

什么是 JSON

requests.Response 对象的属性和方法

1. 基本响应信息

2. 响应内容

3. 响应头和 Cookie

4. 重定向和跳转

5. 性能和资源管理

6. 迭代和流式处理

7. 请求信息

8. 异常处理

提交复杂的请求

一、添加请求头

二、使用代理 IP

三、证书验证

四、超时设置

五、使用 Cookies

下载与上传文件

文件下载

文件上传

分析请求

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具