Python 爬虫入门：构建简单数据抓取程序 | 极客日志

Python算法

Python 爬虫入门：构建简单数据抓取程序

综述由AI生成Python 爬虫通过模拟浏览器请求获取网页数据，主要涉及发送请求、解析源码、存储数据三个核心步骤。使用 requests 库发起 HTTP 请求并处理状态码，利用 BeautifulSoup 结合 lxml 解析 HTML 结构提取特定信息，演示了将数据写入本地文件的完整流程。此外，补充了设置请求头规避反爬、异常捕获处理、遵守 Robots 协议及数据序列化保存等进阶实践，旨在帮助开发者建立规范的网络数据采集能力。

魔法巫师发布于 2025/2/6更新于 2026/6/218 浏览

Python 爬虫入门：构建简单数据抓取程序

1. 爬虫的基本流程分析

当人类访问一个网页时，通常经历以下步骤：

打开浏览器，输入网址发起请求。
等待服务器返回数据，浏览器加载并渲染网页。
从页面中提取需要的信息（文本、图片、链接等）。
保存提取的数据。

网络爬虫（Web Crawler）模拟了这一过程。其核心逻辑分为三步：

请求：使用编程语言向目标 URL 发送 HTTP 请求。
解析：获取服务器返回的 HTML 源码，利用工具提取特定数据。
存储：将提取到的数据保存到本地文件或数据库中。

本文将重点介绍如何使用 Python 实现这三个步骤，构建一个基础的网络爬虫。

2. 环境准备与安装

Python 拥有丰富的第三方库支持网络开发，其中 requests 是发送 HTTP 请求的首选库，BeautifulSoup 则是解析 HTML 文档的利器。

2.1 安装依赖库

在终端或命令行中执行以下指令安装必要的包：

pip install requests beautifulsoup4 lxml

requests：简化 HTTP 请求操作。
beautifulsoup4：HTML/XML 解析器。
lxml：高性能的 XML/HTML 解析后端，建议配合 BeautifulSoup 使用以提升速度。

2.2 验证安装

进入 Python 交互环境，尝试导入模块：

import requests
from bs4 import BeautifulSoup
import lxml
print("环境配置成功")

若无报错输出，说明安装成功。

3. 使用 Requests 发送请求

3.1 基础请求示例

使用 requests.get() 方法可以获取指定 URL 的资源。以下代码演示了如何请求百度首页并查看响应状态：

import requests

url = 'https://www.baidu.com'
try:
    # 发送 GET 请求
    response = requests.get(url, timeout=10)
    
    # 检查状态码
    if response.status_code == 200:
        print(f"请求成功，状态码：{response.status_code}")
        # 打印部分源码内容
        (response.text[:])
    :
        ()
 Exception  e:
    ()

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}

response = requests.get(url, headers=headers)

from bs4 import BeautifulSoup

html_doc = response.text
soup = BeautifulSoup(html_doc, 'lxml')

# 查找 title 标签
title_tag = soup.find('title')
if title_tag:
    print(title_tag.string)

# 获取所有链接 a 标签
links = soup.find_all('a')
for link in links:
    href = link.get('href')
    text = link.get_text(strip=True)
    if href and text:
        print(f"链接：{href}, 文本：{text}")

# 查找 class 为 nav 下的所有 li 标签
items = soup.select('.nav li')

import re

# 提取所有 http 开头的链接
pattern = r'https?://[^"]+'
urls = re.findall(pattern, html_doc)

with open('data.txt', 'w', encoding='utf-8') as f:
    for link in links:
        href = link.get('href')
        if href:
            f.write(href + '\n')

import json

data_list = []
for link in links:
    href = link.get('href')
    if href:
        data_list.append({'url': href})

with open('data.json', 'w', encoding='utf-8') as f:
    json.dump(data_list, f, ensure_ascii=False, indent=4)

import csv

with open('data.csv', 'w', newline='', encoding='utf-8-sig') as f:
    writer = csv.writer(f)
    writer.writerow(['URL'])
    for link in links:
        href = link.get('href')
        if href:
            writer.writerow([href])

import time

for i in range(5):
    try:
        response = requests.get(url, headers=headers, timeout=10)
        response.raise_for_status()
        break
    except requests.exceptions.RequestException as e:
        print(f"第 {i+1} 次请求失败：{e}")
        time.sleep(2)  # 失败后等待 2 秒重试

import random

time.sleep(random.uniform(1, 3))

session = requests.Session()
session.headers.update(headers)
response = session.get(url)

Python 爬虫入门：构建简单数据抓取程序

Python 爬虫入门：构建简单数据抓取程序

1. 爬虫的基本流程分析

2. 环境准备与安装

2.1 安装依赖库

2.2 验证安装

3. 使用 Requests 发送请求

3.1 基础请求示例

更多推荐文章

相关免费在线工具

3.2 设置请求头（Headers）

3.3 常见状态码说明

4. 使用 BeautifulSoup 解析网页

4.1 初始化解析对象

4.2 查找标签元素

4.2.1 查找单个标签

4.2.2 查找多个标签

4.3 CSS 选择器

4.4 正则表达式解析

5. 数据存储方案

5.1 保存为文本文件

5.2 保存为 JSON 格式

5.3 保存为 CSV 格式

6. 进阶实践与注意事项

6.1 异常处理

6.2 遵守 Robots 协议

6.3 频率控制

6.4 Session 管理

7. 总结

更多推荐文章

相关免费在线工具

Python 爬虫入门：构建简单数据抓取程序

Python 爬虫入门：构建简单数据抓取程序

1. 爬虫的基本流程分析

2. 环境准备与安装

2.1 安装依赖库

2.2 验证安装

3. 使用 Requests 发送请求

3.1 基础请求示例

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.2 设置请求头（Headers）

3.3 常见状态码说明

4. 使用 BeautifulSoup 解析网页

4.1 初始化解析对象

4.2 查找标签元素

4.2.1 查找单个标签

4.2.2 查找多个标签

4.3 CSS 选择器

4.4 正则表达式解析

5. 数据存储方案

5.1 保存为文本文件

5.2 保存为 JSON 格式

5.3 保存为 CSV 格式

6. 进阶实践与注意事项

6.1 异常处理

6.2 遵守 Robots 协议

6.3 频率控制

6.4 Session 管理

7. 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具