Python 网络爬虫技术基础与实战指南

一、引言

网络爬虫（Web Crawler），又称网页蜘蛛或网络机器人，是一种按照既定规则自动抓取万维网信息的程序或脚本。它在数据采集、搜索引擎索引、舆情监控等领域发挥着核心作用。本文将深入讲解 HTTP 协议基础、Python 爬虫常用库的使用，并通过豆瓣电影数据爬取案例，演示从请求到存储的完整流程。

二、HTTP 协议基础

1. 协议概述

HTTP（HyperText Transfer Protocol）是超文本传输协议，用于客户端和服务器之间的通信。HTTPS 则是基于 SSL/TLS 的安全版本，对传输数据进行加密。默认端口分别为 80 和 443。

2. 请求与响应

HTTP 通信由两部分组成：客户端请求消息与服务器响应消息。

请求报文：包含请求行（方法、URL、版本）、请求头（Headers）、空行、请求体（Body）。
响应报文：包含状态行（状态码、描述）、响应头、空行、响应体。

浏览器发送 HTTP 请求的过程通常如下：

用户在地址栏输入 URL 并按回车，浏览器向 HTTP 服务器发送请求。
服务器处理请求并返回响应对象。
浏览器分析 HTML，发现引用资源（图片、CSS、JS）后再次发送请求。
所有文件下载完成后，网页渲染显示。

3. 常见状态码

响应状态代码由三位数字组成，第一个数字定义了响应的类别：

1xx：信息提示，表示服务器成功接收部分请求。
2xx：成功。如 200 OK 表示请求成功。
3xx：重定向。如 302 Found 表示临时转移至新 URL。
4xx：客户端错误。如 404 Not Found 表示页面不存在，403 Forbidden 表示权限不足。
5xx：服务端错误。如 500 Internal Server Error 表示服务器内部错误。

三、Python 爬虫核心库

1. requests 模块

requests 是 Python 中最流行的 HTTP 库，用来获取目标网页文本。它简化了 HTTP 请求的复杂性，支持 Session 保持连接、Cookie 管理、代理设置等高级功能。

2. BeautifulSoup / lxml

BeautifulSoup：能从 HTML 或 XML 文件中提取数据的库，提供导航、搜索和修改解析树的功能，适合初学者。
lxml：性能更优，支持 XPath 表达式，适合处理大型文档。

3. 数据库操作

使用 pymysql 封装 MySQL 接口，实现对数据库的读写。在实际项目中，建议定义一个 DBHelper 类来二次封装操作，提高代码复用性。

四、实战案例：爬取豆瓣 Top250

1. 目标网页分析

以豆瓣电影 Top250 为例，目标链接为 https://movie.douban.com/top250。

翻页机制：每页显示 25 条数据。点击下一页时，URL 参数 start 发生变化，例如 ?start=25&filter=。这表明下一页是从第 25 条数据开始加载的。
关键信息：电影名称、排名、评分、作者、简介。

2. 反爬策略应对

User-Agent：随机生成合法的 User-Agent 作为请求头一部分，避免被识别为脚本。

import requests import time from lxml import etree import pymysql # 配置项 BASE_URL = 'https://movie.douban.com/top250?start={}&filter=' HEADERS = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36' } DB_CONFIG = { 'host': 'localhost', 'user': 'root', 'password': 'your_password', 'database': 'douban', 'charset': 'utf8mb4' } def get_source(url): """获取网页源码""" try: response = requests.get(url, headers=HEADERS, timeout=10) response.encoding = 'utf-8' if response.status_code == 200: return response.text else: print(f"Request failed with status code: {response.status_code}") return None except Exception as e: print(f"Error fetching URL: {e}") return None def parse_movies(html): """解析电影信息""" if not html: return [] tree = etree.HTML(html) movie_items = tree.xpath("//div[@class='info']") result = [] for item in movie_items: movie_dict = {} # 标题 title_list = item.xpath("div[@class='hd']/a/span[@class='title']/text()") other_title_list = item.xpath("div[@class='hd']/a/span[@class='other']/text()") movie_dict['title'] = ''.join(title_list + other_title_list).strip() # 评分 star_list = item.xpath("div[@class='bd']/div[@class='star']/span[@class='rating_num']/text()") movie_dict['star'] = star_list[0] if star_list else 'N/A' # 链接 link_list = item.xpath('div[@class="hd"]/a/@href') movie_dict['url'] = link_list[0] if link_list else '' # 短评 quote_list = item.xpath("div[@class='bd']/p[@class='quote']/span/text()") movie_dict['quote'] = quote_list[0].strip() if quote_list else '' result.append(movie_dict) return result def save_to_mysql(data_list): """保存数据到 MySQL""" conn = pymysql.connect(**DB_CONFIG) cursor = conn.cursor() sql = "INSERT INTO movies (title, star, url, quote) VALUES (%s, %s, %s, %s)" try: cursor.executemany(sql, data_list) conn.commit() print(f"Successfully saved {len(data_list)} records.") except Exception as e: conn.rollback() print(f"Database error: {e}") finally: cursor.close() conn.close() def main(): all_movies = [] for i in range(10): # 爬取前 10 页 url = BASE_URL.format(i * 25) print(f"Fetching page {i+1}...") source = get_source(url) if source: movies = parse_movies(source) all_movies.extend(movies) time.sleep(1) # 延时防止被封 if all_movies: save_to_mysql(all_movies) if __name__ == '__main__': main()

Python 网络爬虫技术基础与实战指南