Python 爬虫入门实战：从请求解析到反爬策略 | 极客日志

Python算法

Python 爬虫入门实战：从请求解析到反爬策略

Python 爬虫技术通过编程自动获取网页信息，核心流程包含发送请求、解析内容与保存数据。介绍 requests 和 BeautifulSoup 库的基础用法，演示静态网页抓取及动态页面 Selenium 处理方案。涵盖反爬机制应对策略如请求头伪装、访问延迟与代理 IP，并提供 CSV 及 SQLite 数据存储示例。旨在帮助开发者掌握网络数据采集的核心技能与工程实践。

zhang发布于 2026/3/16更新于 2026/7/628 浏览

爬虫技术通过编程自动获取网页信息，本质上是一个模拟浏览器行为的'机器人'。当你查看网页源代码时，那些 HTML 结构就是爬虫抓取的目标。本文将带你从零开始，掌握 Python 爬虫的核心流程与实战技巧。

一、核心流程

一个标准的爬虫通常包含三个步骤：

发送请求：向目标 URL 发起 HTTP 请求，获取原始响应内容。
解析数据：从返回的 HTML 或 JSON 中提取关键信息。
保存结果：将提取的数据写入文件或数据库，便于后续分析。

二、环境准备

Python 生态中有两个最常用的库：requests 用于网络请求，BeautifulSoup 用于解析 HTML。安装命令如下：

pip install requests beautifulsoup4 -i https://pypi.tuna.tsinghua.edu.cn/simple

三、静态页面抓取实战

我们以百度首页为例，演示如何获取并解析内容。

1. 获取网页源码

使用 requests.get() 发送请求，response.text 即为网页的 HTML 字符串。

import requests

url = 'https://www.baidu.com'
response = requests.get(url)
print(response.text)

运行后会看到大量 HTML 代码，这就是百度的页面结构。

2. 解析标题信息

拿到源码后，用 BeautifulSoup 解析 DOM 树，提取我们需要的标签内容。

from bs4 import BeautifulSoup

# 初始化解析器
soup = BeautifulSoup(response.text, 'html.parser')
# 获取 title 标签内的文本
title = soup.title.text
print('网页标题:', title)

输出结果类似：

网页标题：百度一下，你就知道

3. 批量提取链接

如果想抓取页面上所有的文章链接，可以遍历所有 <a> 标签。

links = soup.find_all('a')
for link in links:
    href = link.get('href')
    text = link.get_text(strip=True)
    if href and text:
        print(f'{text}: ')

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online

from selenium import webdriver

driver = webdriver.Chrome()
driver.get('https://www.example.com')
print(driver.title)
driver.quit()

pip install scrapy -i https://pypi.tuna.tsinghua.edu.cn/simple

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}
response = requests.get(url, headers=headers)

import time
time.sleep(2)  # 每次请求间隔 2 秒

proxies = {
    'http': 'http://10.10.1.10:3128',
    'https': 'http://10.10.1.10:1080',
}
response = requests.get(url, proxies=proxies)

import csv

with open('data.csv', 'w', newline='', encoding='utf-8') as f:
    writer = csv.writer(f)
    writer.writerow(['标题', '链接'])
    for link in links:
        writer.writerow([link.get_text(strip=True), link.get('href')])

import sqlite3

conn = sqlite3.connect('data.db')
cursor = conn.cursor()
cursor.execute('''CREATE TABLE IF NOT EXISTS links 
                  (title TEXT, href TEXT)''')

for link in links:
    cursor.execute('INSERT INTO links VALUES (?, ?)', 
                   (link.get_text(strip=True), link.get('href')))

conn.commit()
conn.close()

Python 爬虫入门实战：从请求解析到反爬策略

一、核心流程

二、环境准备

三、静态页面抓取实战

1. 获取网页源码

2. 解析标题信息

3. 批量提取链接

更多推荐文章

相关免费在线工具

四、进阶场景处理

1. 动态网页（JavaScript 渲染）

2. 大规模框架（Scrapy）

五、应对反爬机制

1. 伪装请求头

2. 控制访问频率

3. 使用代理 IP

六、数据存储方案

1. CSV 文件

2. SQLite 数据库

七、总结

更多推荐文章

相关免费在线工具

Python 爬虫入门实战：从请求解析到反爬策略

一、核心流程

二、环境准备

三、静态页面抓取实战

1. 获取网页源码

2. 解析标题信息

3. 批量提取链接

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

四、进阶场景处理

1. 动态网页（JavaScript 渲染）

2. 大规模框架（Scrapy）

五、应对反爬机制

1. 伪装请求头

2. 控制访问频率

3. 使用代理 IP

六、数据存储方案

1. CSV 文件

2. SQLite 数据库

七、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具