Python 爬虫技术入门：原理、工具与实战流程 | 极客日志

PythonAI算法

Python 爬虫技术入门：原理、工具与实战流程

Python 爬虫通过模拟浏览器请求获取网页数据。介绍 HTTP 协议基础、Requests 库使用方法、常见请求头设置、代理与 Cookie 处理，以及 JSON、XPath、正则等数据提取技巧。涵盖 GET/POST 请求、错误处理、数据存储方案，并强调遵守 Robots 协议与反爬策略的合规性，适合初学者建立完整的爬虫开发知识体系。

利刃发布于 2025/2/6更新于 2026/5/2721 浏览

Python 爬虫技术入门：原理、工具与实战流程

1. 什么是网络爬虫

网络爬虫（Web Crawler），又称网络蜘蛛（Spider），是一种按照一定的规则自动浏览网站并提取数据的程序。从技术层面来看，它通过模拟浏览器向目标站点发起 HTTP/HTTPS 请求，获取服务器返回的 HTML 代码、JSON 数据或二进制资源（如图片、视频），然后对数据进行解析和提取，最终将有用信息存储到本地数据库或文件中。

爬虫的核心价值在于自动化数据采集，广泛应用于数据分析、舆情监控、竞品分析等领域。但需注意，爬虫的使用必须遵守法律法规及目标网站的 Robots 协议，严禁用于非法入侵、窃取隐私或攻击性用途。

2. 爬虫开发基础环境

2.1 环境准备

确保已安装 Python 3.6 及以上版本。建议使用虚拟环境管理依赖，避免污染系统环境。

python -m venv crawler_env
crawler_env\Scripts\activate  # Windows
crawler_env/bin/activate     # Linux/Mac

2.2 核心库安装

requests: 发送 HTTP 请求的标准库。
beautifulsoup4: 解析 HTML/XML 文档。
lxml: 高性能 XML/HTML 解析器，支持 XPath。
re: Python 内置正则表达式模块。

pip install requests beautifulsoup4 lxml

3. HTTP 协议基础

爬虫本质上是 HTTP 客户端。理解 HTTP 协议是编写爬虫的前提。

3.1 HTTP 与 HTTPS

HTTP: 超文本传输协议，默认端口 80，明文传输，性能较高但安全性低。
HTTPS: HTTP + SSL/TLS，默认端口 443，加密传输，防止数据被篡改，目前主流 Web 服务均使用 HTTPS。

3.2 请求报文结构

一个完整的 HTTP 请求包含三部分：

请求行: 方法（GET/POST）、URL、协议版本。
请求头: 包含 User-Agent、Cookie、Content-Type 等信息。
请求体: POST 请求中携带的数据。

3.3 常见状态码

200 OK: 请求成功。
301 Moved Permanently: 永久重定向。
404 Not Found: 资源不存在。
500 Internal Server Error: 服务器内部错误。

4. Requests 库实战

Requests 是 Python 中最流行的 HTTP 库，语法简洁，功能强大。

4.1 基本 GET 请求

import requests

url = 'https://www.example.com'
response = requests.get(url)
print(response.status_code)  
(response.text[:])

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36',
    'Accept-Language': 'zh-CN,zh;q=0.9'
}
response = requests.get(url, headers=headers)

# GET 请求带参数
params = {'keyword': 'python', 'page': 1}
response = requests.get('https://api.example.com/search', params=params)

# POST 请求
payload = {'username': 'user', 'password': 'pass'}
response = requests.post('https://api.example.com/login', data=payload)

session = requests.Session()
session.headers.update(headers)

# 登录
login_resp = session.post('https://example.com/login', data={'user': 'admin'})

# 访问需要登录的页面
resp = session.get('https://example.com/profile')

proxies = {
    'http': 'http://127.0.0.1:7890',
    'https': 'https://127.0.0.1:7890'
}
response = requests.get(url, proxies=proxies, timeout=10)

try:
    response = requests.get(url, timeout=5)
    response.raise_for_status()  # 如果状态码不是 200 则抛出异常
except requests.exceptions.RequestException as e:
    print(f'Request failed: {e}')

data = response.json()
name = data['user']['name']

from bs4 import BeautifulSoup

soup = BeautifulSoup(response.text, 'html.parser')
title = soup.find('h1').text
items = soup.find_all('div', class_='item')

from lxml import etree

tree = etree.HTML(response.text)
# 提取所有链接
links = tree.xpath('//a/@href')

import re

pattern = r'<h1>(.*?)</h1>'
match = re.search(pattern, response.text)
if match:
    title = match.group(1)

import json
with open('data.json', 'w', encoding='utf-8') as f:
    json.dump(data_list, f, ensure_ascii=False, indent=4)

import sqlite3
conn = sqlite3.connect('crawler.db')
cursor = conn.cursor()
cursor.execute('CREATE TABLE IF NOT EXISTS items (id INTEGER PRIMARY KEY, name TEXT)')
cursor.execute('INSERT INTO items (name) VALUES (?)', ('Item1',))
conn.commit()
conn.close()

import time
import random
time.sleep(random.uniform(1, 3))

Python 爬虫技术入门：原理、工具与实战流程

Python 爬虫技术入门：原理、工具与实战流程

1. 什么是网络爬虫

2. 爬虫开发基础环境

2.1 环境准备

2.2 核心库安装

3. HTTP 协议基础

3.1 HTTP 与 HTTPS

3.2 请求报文结构

3.3 常见状态码

4. Requests 库实战

4.1 基本 GET 请求

更多推荐文章

相关免费在线工具

4.2 自定义请求头

4.3 参数传递

4.5 代理设置

4.6 异常处理

5. 数据提取策略

5.1 JSON 解析

5.2 BeautifulSoup (BS4)

5.3 XPath (lxml)

5.4 正则表达式 (re)

6. 数据存储方案

6.1 文件存储

6.2 数据库存储

7. 反爬策略与合规性

7.1 Robots 协议

7.2 频率控制

7.3 用户代理轮换

7.4 合法边界

8. 总结

更多推荐文章

相关免费在线工具

Python 爬虫技术入门：原理、工具与实战流程

Python 爬虫技术入门：原理、工具与实战流程

1. 什么是网络爬虫

2. 爬虫开发基础环境

2.1 环境准备

2.2 核心库安装

3. HTTP 协议基础

3.1 HTTP 与 HTTPS

3.2 请求报文结构

3.3 常见状态码

4. Requests 库实战

4.1 基本 GET 请求

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

4.2 自定义请求头

4.3 参数传递

4.4 Session 对象与 Cookie 管理

4.5 代理设置

4.6 异常处理

5. 数据提取策略

5.1 JSON 解析

5.2 BeautifulSoup (BS4)

5.3 XPath (lxml)

5.4 正则表达式 (re)

6. 数据存储方案

6.1 文件存储

6.2 数据库存储

7. 反爬策略与合规性

7.1 Robots 协议

7.2 频率控制

7.3 用户代理轮换

7.4 合法边界

8. 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具