Python 网络爬虫常用库与正则表达式实战指南 | 极客日志

Python算法

Python 网络爬虫常用库与正则表达式实战指南

综述由AI生成详细汇总了 Python 网络爬虫开发中常用的核心库，涵盖请求库如 requests 和 aiohttp，解析库如 BeautifulSoup 和 lxml，以及存储框架 Scrapy。重点讲解了正则表达式 re 模块的常用函数与用法，包括 search、match、findall 等，并提供了实际代码示例。此外，文章还补充了反爬虫应对策略、异常处理机制及法律合规建议，旨在为开发者提供一份完整的技术参考指南。

ArchDesign发布于 2025/2/7更新于 2026/6/227 浏览

Python 网络爬虫常用库与正则表达式实战指南

引言

在数据抓取与分析领域，Python 凭借其丰富的生态系统和简洁的语法，成为了编写网络爬虫的首选语言。网络爬虫的核心流程通常包括：发送 HTTP 请求、解析网页内容、提取目标数据以及存储数据。本文将系统性地介绍 Python 中常用的爬虫库，并深入讲解正则表达式（Re）在数据清洗中的应用，帮助开发者构建高效、稳定的数据采集方案。

一、请求库：实现 HTTP 请求操作

请求库负责与服务器建立连接并获取响应数据。选择合适的请求库能显著提升爬取效率。

1. urllib

urllib 是 Python 标准库的一部分，无需安装即可使用。它包含了一系列用于操作 URL 的功能模块，如 urllib.request 用于处理 HTTP 请求，urllib.parse 用于解析 URL。

特点：

内置于 Python，依赖少。
功能基础，API 相对繁琐。
适合简单的脚本任务。

示例代码：

import urllib.request

response = urllib.request.urlopen('http://www.example.com')
data = response.read()
print(data.decode('utf-8'))

2. requests

requests 是基于 urllib 封装的高级 HTTP 库，是目前最流行的 Python 请求库。它提供了简洁的 API，支持会话保持、Cookie 管理、代理设置等功能。

特点：

阻塞式 HTTP 请求库，发出一个请求后等待服务器响应。
自动处理编码和压缩。
社区活跃，文档完善。

示例代码：

import requests

headers = {'User-Agent': 'Mozilla/5.0'}
response = requests.get('https://www.example.com', headers=headers)
print(response.status_code)
print(response.text)

3. selenium

selenium 是一个自动化测试工具，但在爬虫中常用于处理 JavaScript 渲染的页面或需要模拟用户交互（如点击登录、输入验证码）的场景。

特点：

调用浏览器驱动（如 ChromeDriver）。
可执行复杂的浏览器操作。
速度较慢，资源消耗大。

4. aiohttp

aiohttp 是基于 asyncio 实现的异步 HTTP 框架。利用 async/await 关键字，可以并发发起大量请求，极大提高数据抓取效率。

特点：

非阻塞异步操作。
适合高并发场景。
学习曲线稍陡。

示例代码：

import aiohttp
 asyncio

  ():
      session.get(url)  response:
          response.text()

  ():
    urls = [] * 
      aiohttp.ClientSession()  session:
        tasks = [fetch(session, url)  url  urls]
        results =  asyncio.gather(*tasks)
        (results)

 __name__ == :
    asyncio.run(main())

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online

from bs4 import BeautifulSoup

html_doc = '<html><head><title>Test</title></head><body><p id="demo">Hello</p></body></html>'
soup = BeautifulSoup(html_doc, 'lxml')
print(soup.find('p')['id'])

import re
pattern = r'\d{3}'
string = 'abc123def'
match = re.search(pattern, string)
if match:
    print(match.group()) # 输出 123

match = re.match(r'\w+', 'Hello World')
print(match.group()) # Hello

matches = re.findall(r'\w+', 'Hello World')
print(matches) # ['Hello', 'World']

parts = re.split(r'[ ,]', 'Hello, World')
print(parts) # ['Hello', 'World']

result = re.sub(r'\d', '*', 'Phone: 123456')
print(result) # Phone: *****

regex = re.compile(r'\w*o\w*')
content = 'Hello, I am Jerry, from Chongqing'
x = regex.findall(content)
print(x) # ['Hello', 'from', 'Chongqing']

try:
    response = requests.get(url, timeout=5)
except requests.exceptions.Timeout:
    print("请求超时")
except requests.exceptions.RequestException as e:
    print(f"请求错误：{e}")

Python 网络爬虫常用库与正则表达式实战指南

Python 网络爬虫常用库与正则表达式实战指南

引言

一、请求库：实现 HTTP 请求操作

1. urllib

2. requests

3. selenium

4. aiohttp

更多推荐文章

相关免费在线工具

二、解析库：从网页中提取信息

1. BeautifulSoup (bs4)

2. lxml

3. pyquery

4. tesserocr

三、存储与框架

1. Scrapy 框架

2. 其他框架

3. Web 框架库

四、Re 库的基本使用

1. Re 库介绍

2. 主要功能函数

re.search()

re.match()

re.findall()

re.split()

re.sub()

re.compile()

3. 常用控制标记

五、进阶技巧与最佳实践

1. 反爬虫策略应对

2. 异常处理

3. 法律与道德规范

结语

更多推荐文章

相关免费在线工具

Python 网络爬虫常用库与正则表达式实战指南

Python 网络爬虫常用库与正则表达式实战指南

引言

一、请求库：实现 HTTP 请求操作

1. urllib

2. requests

3. selenium

4. aiohttp

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

二、解析库：从网页中提取信息

1. BeautifulSoup (bs4)

2. lxml

3. pyquery

4. tesserocr

三、存储与框架

1. Scrapy 框架

2. 其他框架

3. Web 框架库

四、Re 库的基本使用

1. Re 库介绍

2. 主要功能函数

re.search()

re.match()

re.findall()

re.split()

re.sub()

re.compile()

3. 常用控制标记

五、进阶技巧与最佳实践

1. 反爬虫策略应对

2. 异常处理

3. 法律与道德规范

结语

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具