Python 爬虫快速入门
1. 基本类库
1.1 urllib.request (请求)
-
引入模块
from urllib import request -
定义 URL 路径
url = "http://www.baidu.com" -
发送请求 使用
urlopen发送请求,返回一个响应对象response。response = request.urlopen(url) -
读取响应体 以字节形式获取网页源码。
raw_data = response.read() -
编码转换 网络传输通常为字节流,需解码为文本。
- 编码:文本 -> byte (
encode) - 解码:byte -> 文本 (
decode)
# 将字节转为 UTF-8 文本 text = response.read().decode("utf-8") print(text) - 编码:文本 -> byte (
-
写入文件 将爬取内容保存至本地。
with open('example.html', 'w', encoding='utf-8') as fp: fp.write(text) -
常用属性与方法
- 读取状态码:
response.getcode() - 读取请求 URL:
response.geturl() - 读取响应头:
response.getheaders()
- 读取状态码:
1.2 urllib.parse (URL 编码)
在构建请求前,确保参数编码格式正确。
-
引入模块
from urllib import parse -
单个参数编码/解码
result = parse.quote() result1 = parse.unquote()


