Python 爬虫库 urllib 使用详解 | 极客日志

Python大前端算法

Python 爬虫库 urllib 使用详解

综述由AI生成Python 标准库 urllib 的使用方法。涵盖 request 模块的 urlopen 和 Request 类，用于发送 HTTP 请求；error 模块的 URLError 和 HTTPError 异常处理机制；parse 模块的 URL 解析与编码解码功能；以及 robotparser 模块对 robots.txt 协议的解析。文章提供了具体的代码示例，解释了常见参数的含义，并补充了实战中的最佳实践建议，帮助用户构建稳定合规的网络爬虫脚本。

清酒独酌发布于 2025/2/7更新于 2026/6/221 浏览

Python 爬虫库 urllib 使用详解

一、Python urllib 库概述

Python urllib 库用于操作网页 URL，并对网页的内容进行抓取处理。它是 Python 标准库的一部分，无需额外安装。

Python3 的 urllib 包包含以下几个核心模块：

urllib.request - 打开和读取 URL。
urllib.error - 包含 urllib.request 抛出的异常。
urllib.parse - 解析 URL。
urllib.robotparser - 解析 robots.txt 文件。

在实际开发中，主要使用每个模块的内置方法和函数。

二、urllib.request 模块

urllib.request 定义了一些打开 URL 的函数和类，包含授权验证、重定向、浏览器 cookies 等功能。它可以模拟浏览器的一个请求发起过程。

2.1 urlopen 函数

语法格式如下：

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

参数说明：

url：URL 地址。
data：发送到服务器的其他数据对象，默认为 None（用于 POST 请求）。
timeout：设置访问超时时间，防止程序无限挂起。
cafile 和 capath：CA 证书及路径，使用 HTTPS 时需要用到。
cadefault：已被弃用。
context：ssl.SSLContext 类型，用来指定 SSL 设置。

示例：

import urllib.request

# 导入 urllib.request 模块
url = "https://www.baidu.com"
response = urllib.request.urlopen(url)

# 获取响应内容并解码
html = response.read().decode('utf-8')
print(html[:500])  # 仅打印前 500 字符

Response 对象属性与方法：

response 对象是 http.client.HTTPResponse 类型，主要包含以下方法：

read()：读取整个网页内容，也可以指定读取的长度，如 read(300)。获取到的是二进制数据，通常需要 decode() 解码。
readline()：读取文件的一行内容。
readlines()：读取文件的全部内容，返回一个列表。
info()：返回 HTTPMessage 对象，表示远程服务器返回的头信息。

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online

class urllib.request.Request(url, data=None, headers={}, origin_req_host=None, unverifiable=False, method=None)

import urllib.request

url = "https://www.baidu.com"
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36"
}

req = urllib.request.Request(url=url, headers=headers)
response = urllib.request.urlopen(req)
html = response.read().decode("utf-8")
print(response.getcode())

from urllib import request
from urllib import error

try:
    url = "http://www.baiiiduuuu.com/"
    req = request.Request(url)
    response = request.urlopen(req)
    html = response.read().decode('utf-8')
    print(html)
except error.URLError as e:
    print(f"URLError: {e.reason}")

from urllib import request
from urllib import error

try:
    url = "http://www.baidu.com/no.html"
    req = request.Request(url)
    response = request.urlopen(req)
    html = response.read().decode('utf-8')
    print(html)
except error.HTTPError as e:
    print(f"HTTPError Code: {e.code}")
    print(f"Reason: {e.reason}")

from urllib import request
from urllib import error

try:
    url = "http://www.baidu.com/no.html"
    req = request.Request(url)
    response = request.urlopen(req)
except error.HTTPError as e:
    print("HTTP Error occurred")
    print(e.code)
except error.URLError as e:
    print("URL Error occurred")
    print(e.reason)

from urllib.parse import urlparse

o = urlparse("https://docs.python.org/zh-cn/3/library/urllib.parse.html#module-urllib.parse")

print('scheme :', o.scheme)
print('netloc :', o.netloc)
print('path   :', o.path)
print('params :', o.params)
print('query  :', o.query)
print('fragment:', o.fragment)

from urllib.parse import urlunparse

url_compos = ['http', 'www.baidu.com', 'index.html', 'user=test', 'a=6', 'comment']
result_url = urlunparse(url_compos)
print(result_url)

from urllib import parse

url = "http://www.baidu.com/s?wd={}"
words = "爬虫"

query_string = parse.quote(words)
url = url.format(query_string)
print(url)

from urllib import parse

query_string = {'wd': '爬虫'}
result = parse.urlencode(query_string)
url = 'http://www.baidu.com/s?{}'.format(result)
print(url)

from urllib import parse

string = '%E7%88%AC%E8%99%AB'
result = parse.unquote(string)
print(result)

from urllib.robotparser import RobotFileParser

rp = RobotFileParser()
rp.set_url("https://www.example.com/robots.txt")
rp.read()

if rp.can_fetch("*", "https://www.example.com/page"):
    print("允许爬取")
else:
    print("禁止爬取")

Python 爬虫库 urllib 使用详解

Python 爬虫库 urllib 使用详解

一、Python urllib 库概述

二、urllib.request 模块

2.1 urlopen 函数

更多推荐文章

相关免费在线工具

2.2 Request 类

三、urllib.error 模块

3.1 URLError 示例

3.2 HTTPError 示例

3.3 混合异常处理

四、urllib.parse 模块

4.1 URL 解析

4.1.1 urlparse()

4.1.2 urlunparse()

4.1.3 urlsplit() 与 urlunsplit()

4.1.4 urljoin()

4.2 URL 转码

4.2.1 quote(string)

4.2.2 urlencode()

4.2.3 unquote(string)

五、urllib.robotparser 模块

六、实战建议与最佳实践

更多推荐文章

相关免费在线工具

Python 爬虫库 urllib 使用详解

Python 爬虫库 urllib 使用详解

一、Python urllib 库概述

二、urllib.request 模块

2.1 urlopen 函数

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.2 Request 类

三、urllib.error 模块

3.1 URLError 示例

3.2 HTTPError 示例

3.3 混合异常处理

四、urllib.parse 模块

4.1 URL 解析

4.1.1 urlparse()

4.1.2 urlunparse()

4.1.3 urlsplit() 与 urlunsplit()

4.1.4 urljoin()

4.2 URL 转码

4.2.1 quote(string)

4.2.2 urlencode()

4.2.3 unquote(string)

五、urllib.robotparser 模块

六、实战建议与最佳实践

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具