Python Requests 爬虫入门实战
本文介绍使用 Python requests 库进行网络爬虫的基础操作,涵盖 GET 与 POST 请求方法、参数传递、响应对象处理及文件保存。同时讲解如何通过设置 User-Agent 头部信息绕过基础反爬机制,并补充了异常处理、Session 会话管理及基本的 HTML 解析技巧。
1. 环境准备
首先确保已安装 Python 3.x 环境,并通过 pip 安装 requests 库:
pip install requests
若需解析 HTML 内容,建议额外安装 BeautifulSoup4:
pip install beautifulsoup4
2. 基础请求:GET 与 POST
2.1 GET 请求示例
发送 GET 请求获取网页内容,并处理编码问题。
import requests
url = "http://www.baidu.com"
response = requests.get(url)
# 自动识别编码或手动指定
response.encoding = response.apparent_encoding
print(f"状态码:{response.status_code}")
print(f"响应文本长度:{len(response.text)}")
2.2 POST 请求示例
向服务器提交数据通常使用 POST 方法。
import requests
url = "http://httpbin.org/post"
data = {
"key": "value",
"number": 123
}
response = requests.post(url, data=data)
print(f"状态码:{response.status_code}")
print(response.text)
3. 参数传递与 Headers
3.1 URL 传参
在 GET 请求中,可以通过字典形式传递参数,库会自动拼接 URL。
import requests
params = {"name": "hezhi", "age": 20}
response = requests.get("http://httpbin.org/get", params=params)
(response.url)


