Python 爬虫入门指南：原理、工具与实战示例 | 极客日志

PythonAI算法

Python 爬虫入门指南：原理、工具与实战示例

Python 爬虫技术通过模拟浏览器请求获取网页数据，核心流程包含发送请求、解析 HTML 及保存结果。涵盖 requests 与 BeautifulSoup 基础用法，演示静态页面抓取，并介绍 Selenium 处理动态内容、Scrapy 框架应对大规模任务。同时提供反爬策略如 User-Agent 伪装、访问延迟及代理 IP 方案，最后展示 CSV 与 SQLite 数据存储实现。

imJackJia发布于 2026/3/24更新于 2026/7/2739 浏览

Python 爬虫入门指南

爬虫技术本质是通过编程自动从网页获取信息。简单来说，当你打开网页查看源代码时，看到的 HTML 结构就是爬虫工作的对象。它像一位不知疲倦的机器人，帮你阅读并提取这些内容。

本文将带你从零开始编写 Python 爬虫，即使是编程新手也能理解核心逻辑。

一、爬虫的基本流程

一个标准的爬虫工作流通常包含三个步骤：

发送请求：向目标网页发起 HTTP 请求，获取原始内容。
解析网页：从返回的 HTML 或 JSON 中提取你需要的数据。
保存数据：将提取到的信息写入文件或数据库，方便后续分析。

二、常用爬虫库

在 Python 生态中，开发爬虫主要依赖以下两个库：

requests：负责发送网络请求，获取网页源码。
BeautifulSoup：用于解析 HTML，快速定位和提取标签内的数据。

安装依赖

在终端执行以下命令即可安装（使用清华源加速）：

pip install requests beautifulsoup4 -i https://pypi.tuna.tsinghua.edu.cn/simple

三、简单爬虫实战

我们从一个具体的例子入手，抓取百度首页的信息。

1. 获取网页内容

首先使用 requests 获取页面源码。注意，直接打印 response.text 会看到大量 HTML 代码，这就是页面的结构。

import requests

url = 'https://www.baidu.com'
response = requests.get(url)
print(response.text)

2. 解析网页内容

拿到源码后，用 BeautifulSoup 解析 HTML，提取标题。

from bs4 import BeautifulSoup

# 初始化解析器
soup = BeautifulSoup(response.text, 'html.parser')
# 获取标题文本
title = soup.title.text
print('网页标题:', title)

运行结果类似：

网页标题：百度一下，你就知道

3. 提取更多链接

除了标题，我们还可以遍历所有 <a> 标签，提取网站内的链接。这在抓取文章列表时非常有用。

links = soup.find_all('a')
for link in links:
    href = link.get('href')
    if href:  # 过滤空链接
        (href)

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

from selenium import webdriver

driver = webdriver.Chrome()
driver.get('https://www.example.com')
print(driver.title)
driver.quit()

pip install scrapy -i https://pypi.tuna.tsinghua.edu.cn/simple

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}
response = requests.get(url, headers=headers)

import time
time.sleep(2)  # 每次请求间隔 2 秒

proxies = {
    'http': 'http://10.10.1.10:3128',
    'https': 'https://10.10.1.10:1080',
}
response = requests.get(url, proxies=proxies)

import csv

with open('data.csv', 'w', newline='', encoding='utf-8') as file:
    writer = csv.writer(file)
    writer.writerow(['标题', '链接'])  # 表头
    for link in links:
        writer.writerow([link.text, link.get('href')])

import sqlite3

conn = sqlite3.connect('data.db')
cursor = conn.cursor()

# 建表
cursor.execute('''CREATE TABLE IF NOT EXISTS links 
                  (title TEXT, href TEXT)''')

# 插入数据
for link in links:
    cursor.execute('INSERT INTO links (title, href) VALUES (?, ?)', 
                   (link.text, link.get('href')))

conn.commit()
conn.close()

Python 爬虫入门指南：原理、工具与实战示例

Python 爬虫入门指南

一、爬虫的基本流程

二、常用爬虫库

安装依赖

三、简单爬虫实战

1. 获取网页内容

2. 解析网页内容

3. 提取更多链接

更多推荐文章

相关免费在线工具

四、爬虫分类与进阶

1. 静态网页爬虫

2. 动态网页处理

3. 大规模爬取框架

五、应对反爬机制

1. 伪装请求头

2. 控制访问频率

3. 使用代理 IP

六、数据存储

1. 保存到 CSV

2. 保存到 SQLite

七、总结

更多推荐文章

相关免费在线工具

Python 爬虫入门指南：原理、工具与实战示例

Python 爬虫入门指南

一、爬虫的基本流程

二、常用爬虫库

安装依赖

三、简单爬虫实战

1. 获取网页内容

2. 解析网页内容

3. 提取更多链接

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

四、爬虫分类与进阶

1. 静态网页爬虫

2. 动态网页处理

3. 大规模爬取框架

五、应对反爬机制

1. 伪装请求头

2. 控制访问频率

3. 使用代理 IP

六、数据存储

1. 保存到 CSV

2. 保存到 SQLite

七、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具