Python 爬虫实战入门：请求、解析与存储 | 极客日志

Python

Python 爬虫实战入门：请求、解析与存储

Python 爬虫的入门路径很直接：先用 requests 发起请求，再用 BeautifulSoup 解析 HTML，遇到前端渲染的页面就改用 Selenium。文章还补了数据落盘、Session、重试和反爬处理的基本思路，并强调了 robots.txt、版权和隐私边界。

Stephaine Walsh发布于 2026/6/30更新于 2026/7/32 浏览

Python 爬虫实战入门：请求、解析与存储

Python 做爬虫，门槛不高，真正容易卡住的反而是细节：请求头怎么写、页面是静态还是动态、拿到数据以后往哪放。先把这三件事弄明白，后面再谈代理、重试、验证码，思路会顺很多。

准备工作

动手之前，最好已经会一点 Python 基础，也知道 HTTP 请求、状态码、HTML 结构这些常见概念。爬虫并不神秘，本质上就是发请求、拿响应、解析页面、保存结果。

环境搭建

建议先装 Python 3.x，再用虚拟环境把依赖隔离开。venv 和 conda 都行，选你平时最顺手的。

python -m venv crawler_env
source crawler_env/bin/activate  # Windows: crawler_env\Scripts\activate

安装必要库

最常用的一组库是 requests、beautifulsoup4、selenium 和 lxml。

pip install requests beautifulsoup4 selenium lxml

写一个最小可用爬虫

先别急着上复杂框架，直接拿一个页面试手最稳。requests 负责发起 HTTP 请求，BeautifulSoup 负责把 HTML 拆开看。

发送 HTTP 请求

很多站点会简单判断请求是不是浏览器发来的，所以一般会带上 User-Agent。这不是万能钥匙，但能避开一部分很粗糙的拦截。

import requests
from bs4 import BeautifulSoup

url = 'http://example.com'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}

try:
    response = requests.get(url, headers=headers, timeout=10)
    response.raise_for_status()  # 如果状态码不是 200，则抛出异常
    response.encoding = response.apparent_encoding  # 自动识别编码
    
    soup = BeautifulSoup(response.text, 'html.parser')
    title = soup.title.string if soup.title else 'No Title'
    print(f"网页标题：{title}")
except Exception as e:
    print()

相关免费在线工具

curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online
HTML转Markdown
将 HTML 片段转为 GitHub Flavored Markdown，支持标题、列表、链接、代码块与表格等；浏览器内处理，可链接预填。在线工具，HTML转Markdown在线工具，online
JSON 压缩
通过删除不必要的空白来缩小和压缩JSON。在线工具，JSON 压缩在线工具，online

# 假设 html_doc 为获取到的网页源码
soup = BeautifulSoup(html_doc, 'html.parser')

# 提取所有链接
links = soup.find_all('a')
for link in links[:5]:  # 仅打印前 5 个
    href = link.get('href')
    text = link.get_text(strip=True)
    print(f"链接：{href}, 文本：{text}")

# 提取段落内容
paragraphs = soup.find_all('p')
for p in paragraphs:
    content = p.get_text(strip=True)
    if content:
        print(f"段落：{content[:50]}...")  # 限制输出长度

# 查找 class 为 'content' 的 div 下的所有 h2 标签
items = soup.select('div.content h2')
for item in items:
    print(item.get_text())

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

# 初始化 Chrome 驱动
options = webdriver.ChromeOptions()
options.add_argument('--headless')  # 无头模式，不显示浏览器窗口
driver = webdriver.Chrome(options=options)

try:
    driver.get('http://example.com')
    
    # 等待特定元素出现
    wait = WebDriverWait(driver, 10)
    element = wait.until(EC.presence_of_element_located((By.ID, "main-content")))
    
    html = driver.page_source
    print(html[:500])  # 打印部分源码
finally:
    driver.quit()

import json

data = [
    {"id": 1, "name": "Item A", "price": 100},
    {"id": 2, "name": "Item B", "price": 200}
]

with open('data.json', 'w', encoding='utf-8') as f:
    json.dump(data, f, ensure_ascii=False, indent=4)

import csv

with open('data.csv', 'w', newline='', encoding='utf-8-sig') as f:
    writer = csv.DictWriter(f, fieldnames=['id', 'name', 'price'])
    writer.writeheader()
    writer.writerows(data)

session = requests.Session()
response = session.get(url, headers=headers)

import time
from requests.adapters import HTTPAdapter
from urllib3.util.retry import Retry

session = requests.Session()
retry = Retry(total=3, backoff_factor=1, status_forcelist=[500, 502, 503, 504])
adapter = HTTPAdapter(max_retries=retry)
session.mount('http://', adapter)
session.mount('https://', adapter)

Python 爬虫实战入门：请求、解析与存储

Python 爬虫实战入门：请求、解析与存储

准备工作

环境搭建

安装必要库

写一个最小可用爬虫

发送 HTTP 请求

更多推荐文章

相关免费在线工具

解析网页内容

标签查找

CSS 选择器

处理动态内容

Selenium 基础用法

数据存储

保存为 JSON

保存为 CSV

进阶一点的处理

Session 管理

反爬虫策略应对

错误重试机制

法律与道德规范

小结

更多推荐文章

相关免费在线工具

Python 爬虫实战入门：请求、解析与存储

Python 爬虫实战入门：请求、解析与存储

准备工作

环境搭建

安装必要库

写一个最小可用爬虫

发送 HTTP 请求

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

解析网页内容

标签查找

CSS 选择器

处理动态内容

Selenium 基础用法

数据存储

保存为 JSON

保存为 CSV

进阶一点的处理

Session 管理

反爬虫策略应对

错误重试机制

法律与道德规范

小结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具