Python Requests 库网络爬虫基础与实战 | 极客日志

Python

Python Requests 库网络爬虫基础与实战

Python Requests 库是常用的 HTTP 客户端工具，支持 GET 和 POST 请求。涵盖请求参数设置、Response 对象属性（状态码、内容、编码）、复杂请求定制（Headers、代理、证书、超时、Cookies）以及文件下载与上传的实现方法。通过代码示例展示了如何使用 requests 进行网络数据交互及处理常见爬虫场景。

MongoKing发布于 2026/3/16更新于 2026/6/1727 浏览

请求方式

HTTP 的请求方式分为 GET 和 POST。

GET 请求

url 语法如下：

# 不带参数
url_without_params = "https://www.baidu.com/"
# 带参数
url_with_params = "https://www.baidu.com/s?参数名=参数值"

注：如果一个 URL 有多个参数，参数之间用'&'连接。request 对于带参数的 url 请求有两种处理方式：

import requests
# 第一种方式
r = requests.get('https://www.baidu.com/s?参数名=参数值')
# 第二种方式
url = 'https://www.baidu.com/s'
params = {'参数名': '参数值'}
# 左边 params 在 GET 请求中表示设置参数
r = requests.get(url, params=params)
# 输出生成的 URL
print(r.url)

对于动态变化的参数，我们可以采用%s来占位的方式来处理：

url_template = 'https://www.baidu.com/s?参数名=%s'
search_term = '参数值'
# 使用字符串格式化将搜索词插入到 URL 中
formatted_url = url_template % search_term
print(formatted_url)

这样输出的将会是：https://www.baidu.com/s?参数名=参数值。

POST 请求

POST 请求常用来提交表单，表单数据就是 POST 的请求参数。在 requests 中实现 POST 请求时，需要设置 data 参数，数据格式可以是字典、元组、列表或 JSON。不同格式各有优势。

# 字典类型
data = {'key1': 'value1', 'key2': 'value2'}
# 元组或列表
# 这里应该是元组的列表，而不是元组中包含元组
tuple_list = (('key1', 'value1'), ('key2', 'value2'))
# JSON
import json
# 将字典转换为 JSON
data_json = json.dumps(data)
# 发送 POST 请求
 requests
r = requests.post(, data=data_json)
(r.text)

相关免费在线工具

curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online
HTML转Markdown
将 HTML 片段转为 GitHub Flavored Markdown，支持标题、列表、链接、代码块与表格等；浏览器内处理，可链接预填。在线工具，HTML转Markdown在线工具，online
JSON 压缩
通过删除不必要的空白来缩小和压缩JSON。在线工具，JSON 压缩在线工具，online

{
  "name": "John Doe",
  "age": 30,
  "is_student": false,
  "hobbies": ["reading", "gaming", "sports"],
  "address": {
    "street": "123 Main St",
    "city": "Anytown",
    "state": "CA",
    "zip": "12345"
  }
}

import requests
# 定义请求头
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3",
    "Accept-Language": "en-US,en;q=0.9",
    "Accept-Encoding": "gzip, deflate, br"
}
# 发送请求并设置 headers 参数
response = requests.get("https://example.com", headers=headers)
# 打印响应内容
print(response.text)

import requests
# 定义代理 IP
proxies = {
    "http": "http://123.45.67.89:8080",
    "https": "https://123.45.67.89:8080"
}
# 发送请求并设置 proxies 参数
response = requests.get("https://example.com", proxies=proxies)
# 打印响应内容
print(response.text)

import requests
# 发送请求并关闭证书验证
response = requests.get("https://example.com", verify=False)
# 打印响应内容
print(response.text)

import requests
# 发送请求并指定证书文件路径
response = requests.get("https://example.com", verify="/path/to/certificate.pem")
# 打印响应内容
print(response.text)

import requests
# 发送请求并设置超时时间为 5 秒
try:
    response = requests.get("https://example.com", timeout=5)
    print(response.text)
except requests.exceptions.Timeout:
    print("请求超时")

import requests
# 从浏览器获取的 Cookies 字符串
temp_cookies = "cookie1=value1; cookie2=value2"
# 将 Cookies 字符串转换为字典
cookies = {}
for cookie in temp_cookies.split("; "):
    key, value = cookie.split("=")
    cookies[key] = value
# 发送请求并设置 cookies 参数
response = requests.get("https://example.com", cookies=cookies)
# 打印响应内容
print(response.text)

import requests
# 发送请求并获取服务器返回的响应
response = requests.get("https://example.com")
cookies = response.cookies
# 打印 Cookies 信息
print(cookies)
# 再次发送请求并使用获取到的 Cookies
response = requests.get("https://example.com", cookies=cookies)
# 打印响应内容
print(response.text)

import json
# 将 Cookies 以字典形式写入文件
with open("cookies.json", "w") as f:
    json.dump(cookies, f)
# 从文件中读取 Cookies
with open("cookies.json", "r") as f:
    cookies = json.load(f)
# 打印读取到的 Cookies
print(cookies)

import requests
# 图片的 URL
url = 'https://www.python.org/static/img/python-logo.png'
# 发送 GET 请求
r = requests.get(url)
# 检查请求是否成功
if r.status_code == 200:
    # 打开一个文件用于写入二进制数据
    with open('python.jpg', 'wb') as f:
        # 将图片内容写入文件
        f.write(r.content)
    print("图片已成功下载并保存为 python.jpg")
else:
    print("请求失败，状态码：", r.status_code)

url = 'https://weibo.cn/imblog/sendmblog?rl=0&st=bd6702'
cookies = {'xxx': 'xxx'}
files = {
    'content': (None, 'Python 爬虫'),
    'pic': ('pic', open('test.png', 'rb')), 'image/png',
    'visible': (None, '0')
}
r = requests.post(url, files=files, cookies=cookies)
print(r.status_code)

Python Requests 库网络爬虫基础与实战

请求方式

GET 请求

POST 请求

更多推荐文章

相关免费在线工具

什么是 JSON

requests.Response 对象的属性和方法

1. 基本响应信息

2. 响应内容

4. 重定向和跳转

5. 性能和资源管理

6. 迭代和流式处理

7. 请求信息

8. 异常处理

提交复杂的请求

一、添加请求头

二、使用代理 IP

三、证书验证

关闭证书验证

使用自定义证书文件

四、超时设置

五、使用 Cookies

从字符串转换 Cookies

使用 RequestsCookieJar 对象

Cookies 的读写操作

下载与上传文件

文件下载

文件上传

分析请求

更多推荐文章

相关免费在线工具

Python Requests 库网络爬虫基础与实战

请求方式

GET 请求

POST 请求

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

什么是 JSON

requests.Response 对象的属性和方法

1. 基本响应信息

2. 响应内容

3. 响应头和 Cookie

4. 重定向和跳转

5. 性能和资源管理

6. 迭代和流式处理

7. 请求信息

8. 异常处理

提交复杂的请求

一、添加请求头

二、使用代理 IP

三、证书验证

关闭证书验证

使用自定义证书文件

四、超时设置

五、使用 Cookies

从字符串转换 Cookies

使用 RequestsCookieJar 对象

Cookies 的读写操作

下载与上传文件

文件下载

文件上传

分析请求

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具