Python 六种常见爬虫方法介绍 | 极客日志

Python

Python 六种常见爬虫方法介绍

综述由AI生成Python 中六种常见的网页数据抓取方法。包括使用 requests 结合 BeautifulSoup 处理静态页面、利用正则表达式提取特定格式数据、通过 Selenium 模拟浏览器操作动态内容、借助 Scrapy 框架构建大规模爬虫项目、使用 PyQuery 解析 HTML 以及直接调用 API 获取结构化数据。文章对比了各方法的适用场景、优缺点，帮助开发者根据实际需求选择高效的数据采集方案。

城市逃兵发布于 2026/3/27更新于 2026/5/3029 浏览

在 Python 中，爬虫是获取网页数据的常用工具。以下是六种常见的爬虫方法，涵盖了从简单的静态网页抓取到动态网页处理的多种场景。

1. 使用 requests + BeautifulSoup 抓取静态网页

这是最基础的爬虫方法，适用于静态网页（HTML 内容直接嵌入在网页中）。

示例代码：

import requests
from bs4 import BeautifulSoup

# 发送 HTTP 请求
url = 'https://example.com'
response = requests.get(url)

# 解析 HTML 内容
soup = BeautifulSoup(response.text, 'html.parser')

# 提取数据
title = soup.title.text
print(f'网页标题：{title}')

# 提取所有链接
links = soup.find_all('a')
for link in links:
    print(link.get('href'))

适用场景：

静态网页数据抓取。
数据量较小的简单任务。

2. 使用 requests + 正则表达式提取数据

如果需要从网页中提取特定格式的数据（如邮箱、电话号码等），可以使用正则表达式。

示例代码：

import requests
import re

# 发送 HTTP 请求
url = 'https://example.com'
response = requests.get(url)

# 使用正则表达式提取邮箱
emails = re.findall(r'[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+', response.text)
print(emails)

适用场景：

提取特定格式的数据（如邮箱、电话号码、日期等）。
数据格式固定的场景。

3. 使用 Selenium 抓取动态网页

对于动态加载的网页（如通过 JavaScript 渲染的内容），可以使用 Selenium 模拟浏览器行为。

示例代码：

from selenium import webdriver
from selenium.webdriver.common.by  By


driver = webdriver.Chrome()


url = 
driver.get(url)


element = driver.find_element(By.CSS_SELECTOR, )
(element.text)


driver.quit()

相关免费在线工具

curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online
HTML转Markdown
将 HTML 片段转为 GitHub Flavored Markdown，支持标题、列表、链接、代码块与表格等；浏览器内处理，可链接预填。在线工具，HTML转Markdown在线工具，online
JSON 压缩
通过删除不必要的空白来缩小和压缩JSON。在线工具，JSON 压缩在线工具，online

pip install scrapy

scrapy startproject myproject

import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = ['https://example.com']

    def parse(self, response):
        title = response.css('title::text').get()
        yield {'title': title}

scrapy crawl myspider -o output.json

import requests
from pyquery import PyQuery as pq

# 发送 HTTP 请求
url = 'https://example.com'
response = requests.get(url)

# 解析 HTML
doc = pq(response.text)

# 提取数据
title = doc('title').text()
print(f'网页标题：{title}')

# 提取所有链接
links = doc('a')
for link in links.items():
    print(link.attr('href'))

import requests

# API 地址
url = 'https://api.example.com/data'

# 发送请求
params = {'key': 'your_api_key', 'q': 'search_query'}
response = requests.get(url, params=params)

# 解析 JSON 数据
data = response.json()
print(data)

方法	适用场景	优点	缺点
requests + BeautifulSoup	静态网页抓取	简单易用	无法处理动态内容
requests + 正则表达式	提取特定格式数据	灵活	正则表达式编写复杂
Selenium	动态网页抓取	支持动态内容	速度慢，资源消耗大
Scrapy	大规模数据抓取	功能强大，支持分布式	学习曲线较陡
PyQuery	熟悉 jQuery 语法的开发者	语法简洁	功能相对有限
API	网站提供 API 接口	高效、稳定	需要 API 权限

Python 六种常见爬虫方法介绍

1. 使用 requests + BeautifulSoup 抓取静态网页

示例代码：

适用场景：

2. 使用 requests + 正则表达式提取数据

示例代码：

适用场景：

3. 使用 Selenium 抓取动态网页

示例代码：

更多推荐文章

相关免费在线工具

适用场景：

4. 使用 Scrapy 构建爬虫项目

示例代码：

适用场景：

5. 使用 PyQuery 解析 HTML

示例代码：

适用场景：

6. 使用 API 抓取数据

示例代码：

适用场景：

总结

更多推荐文章

相关免费在线工具

Python 六种常见爬虫方法介绍

1. 使用 requests + BeautifulSoup 抓取静态网页

示例代码：

适用场景：

2. 使用 requests + 正则表达式提取数据

示例代码：

适用场景：

3. 使用 Selenium 抓取动态网页

示例代码：

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

适用场景：

4. 使用 Scrapy 构建爬虫项目

示例代码：

适用场景：

5. 使用 PyQuery 解析 HTML

示例代码：

适用场景：

6. 使用 API 抓取数据

示例代码：

适用场景：

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具