超详细 Python 爬虫指南

Ne0inhk

21 Mar 2026 — 5 min read

一、爬虫的基本原理

一、爬虫的基本原理

HTTP 请求与响应
- 爬虫通过 HTTP 协议与目标网站服务器通信。
- 发送请求时可指定 URL、请求方法（GET 或 POST）、请求头等。
- 服务器根据请求返回 HTML 页面、JSON 数据或其他格式的响应。
HTML 解析
HTML 是网页的主要结构。爬虫通过解析 HTML 提取有用信息，如标题、图片、表格等。
数据存储
抓取的数据可存储到文件（如 CSV、JSON）、数据库（如 MySQL、MongoDB）等介质中，便于后续分析。
反爬机制
- User-Agent 检测：服务器检查请求来源是否合法。
- 频率限制：高频访问可能触发封禁。
- 验证码验证：部分网站通过验证码阻止自动化行为。
robots.txt 协议
网站通过 robots.txt 指定哪些页面可以被爬取，爬虫需遵守此协议。

二、爬虫实现步骤

1. 准备工作

安装必要的库：

pip install requests beautifulsoup4 lxml pandas

2. 详细代码实现

（1）发送 HTTP 请求 通过 requests 库获取网页内容。

import requests # 定义目标 URL url = "https://example.com" # 设置请求头，伪装为浏览器访问 headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36" } # 发送请求 response = requests.get(url, headers=headers) # 检查状态码 if response.status_code == 200: print("请求成功！") print(response.text[:500]) # 打印部分网页内容 else: print(f"请求失败，状态码: {response.status_code}")

（2）解析 HTML 数据 使用 BeautifulSoup 提取 HTML 中的内容。

from bs4 import BeautifulSoup # 使用 BeautifulSoup 解析 HTML soup = BeautifulSoup(response.text, "lxml") # 提取网页标题 title = soup.title.string print(f"网页标题: {title}") # 提取所有超链接 links = [] for a_tag in soup.find_all("a", href=True): links.append(a_tag["href"]) print("提取到的链接:") print(" ".join(links))

（3）存储数据 将数据保存为 CSV 文件。

import pandas as pd # 构造数据字典 data = {"Links": links} # 转换为 DataFrame df = pd.DataFrame(data) # 保存为 CSV df.to_csv("links.csv", index=False, encoding="utf-8-sig") print("数据已保存到 links.csv")

（4）动态网页处理 有些网页通过 JavaScript 加载数据，requests 无法直接抓取。这时需使用浏览器自动化工具，如 Selenium 或 Playwright。

以下是 Selenium 的示例：

pip install selenium from selenium import webdriver from selenium.webdriver.common.by import By # 配置 Selenium WebDriver（以 Chrome 为例） options = webdriver.ChromeOptions() options.add_argument("--headless") # 无头模式 driver = webdriver.Chrome(options=options) # 打开网页 driver.get("https://example.com") # 等待页面加载 driver.implicitly_wait(10) # 提取动态加载的内容 titles = driver.find_elements(By.TAG_NAME, "h1") for title in titles: print(title.text) # 关闭浏览器 driver.quit()

三、处理反爬机制

添加随机延迟 避免频繁请求被封禁：

import time import random time.sleep(random.uniform(1, 3)) # 随机延迟 1-3 秒

使用代理 IP 通过代理绕过 IP 封禁：

proxies = { "http": "http://username:password@proxyserver:port", "https": "http://username:password@proxyserver:port" } response = requests.get(url, headers=headers, proxies=proxies)

处理验证码 使用 OCR 识别验证码：

pip install pytesseract pillow from PIL import Image import pytesseract # 读取验证码图片 image = Image.open("captcha.png") # 使用 OCR 识别文本 captcha_text = pytesseract.image_to_string(image) print(f"验证码内容: {captcha_text}")

四、爬取复杂数据的技巧

1. JSON 数据爬取

许多网站的动态内容通过 API 提供 JSON 数据，可以直接请求这些接口：

api_url = "https://example.com/api/data" response = requests.get(api_url, headers=headers) # 解析 JSON 数据 data = response.json() print(data)

2. 分页数据爬取

自动抓取多页内容：

base_url = "https://example.com/page={}" for page in range(1, 6): url = base_url.format(page) response = requests.get(url, headers=headers) print(f"抓取第 {page} 页内容")

3. 下载文件

下载图片或文件到本地：

file_url = "https://example.com/image.jpg" response = requests.get(file_url, stream=True) # 保存到本地 with open("image.jpg", "wb") as file: for chunk in response.iter_content(chunk_size=1024): file.write(chunk) print("文件下载完成！")

五、完整爬虫示例

以下是一个完整的爬虫脚本，抓取新闻网站标题与链接并保存为 CSV 文件：

import requests from bs4 import BeautifulSoup import pandas as pd import time import random # 设置目标 URL 和请求头 base_url = "https://news.ycombinator.com/" headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36" } # 存储数据 titles = [] links = [] # 爬取内容 for page in range(1, 4): # 抓取前三页 url = f"{base_url}?p={page}" response = requests.get(url, headers=headers) soup = BeautifulSoup(response.text, "lxml") for item in soup.find_all("a", class_="titlelink"): titles.append(item.text) links.append(item["href"]) print(f"完成第 {page} 页爬取") time.sleep(random.uniform(1, 3)) # 随机延迟 # 保存数据到 CSV data = {"Title": titles, "Link": links} df = pd.DataFrame(data) df.to_csv("news.csv", index=False, encoding="utf-8-sig") print("新闻数据已保存到 news.csv")

六、注意事项

避免法律风险
- 爬取前阅读目标网站的使用条款。
- 遵守 robots.txt 协议。
优化性能
使用多线程或异步技术（如 asyncio、aiohttp）提高效率。
应对反爬
熟练使用代理、延迟和伪装技巧。

Flutter 三方库 m_list 的鸿蒙化适配指南 - 实现具备高阶谓词过滤与异步分片的增强列表处理、支持端侧集合数据的高效变换与分布式序列化实战

欢迎加入开源鸿蒙跨平台社区：https://openharmonycrossplatform.ZEEKLOG.net Flutter 三方库 m_list 的鸿蒙化适配指南 - 实现具备高阶谓词过滤与异步分片的增强列表处理、支持端侧集合数据的高效变换与分布式序列化实战前言在进行 Flutter for OpenHarmony 的大规模数据处理、商品列表分析或复杂的日志检索应用开发时，原生 Dart 的 List 虽然提供了基础的集合操作，但在处理分页加载、深度克隆、频率统计以及复杂的并集/交集运算时，代码往往会变得碎片化。m_list 是一款专为高效列表操作设计的增强库。本文将探讨如何在鸿蒙端构建极致、清爽的集合处理模型。一、原直观解析 / 概念介绍 1.1 基础原理 m_list 建立在一套强大的“谓词逻辑（Predicate Logic）”和“链式变换”之上。

MySQL查看命令速查表

🎬 个人主页：艾莉丝努力练剑 ❄专栏传送门：《C语言》《数据结构与算法》《C/C++干货分享&学习过程记录》《Linux操作系统编程详解》《笔试/面试常见算法：从基础到进阶》《Python干货分享》 ⭐️为天地立心，为生民立命，为往圣继绝学，为万世开太平 🎬 艾莉丝的简介：文章目录 * 1 ~> MySQL 查看类命令大全 * 1.1 查看数据库 * 1.2 查看表 * 1.3 查看数 * 1.4 查看用户 / 权限 * 1.5 最常用组合（截图里就是这套） * 2 ~> MySQL常用核心命令速查表 * 2.1 MySQL 常用核心命令速查表 * 2.

FARS全自动科研系统技术深度解析：从多智能体架构到工业化科研范式

前言 2026年2月12日至2月22日，一场持续228小时33分钟的直播在全球AI社区引发了持续震荡。屏幕另一端，一个名为FARS（Fully Automated Research System）的全自动研究系统，在没有人类干预的情况下，自主完成了从文献调研到论文撰写的完整科研流程，最终产出100篇学术论文，总消耗114亿Token，成本10.4万美元。这场实验的意义远不止于“AI写论文”的简单升级。它向世界展示了科学发现的根本范式正在发生转移——从依赖人类灵感的“手工作坊”，转向由AI驱动的“工业化流水线”。本文将从最底层的技术细节出发，逐层拆解FARS的系统架构、智能体协作机制、资源调度策略、成本控制模型，以及与竞品的技术对比，为读者呈现一个完整的全自动科研系统技术图谱。第一章系统总体架构：四智能体流水线设计 1.1 核心设计理念：研究系统的第一性原理 FARS的设计并非简单地模仿人类科研流程，而是基于团队对“研究系统”本质的重新思考。创始团队提出，一个理想的研究系统应遵循两条基本原则： 1. 高效拓展知识边界：系统的吞吐量应成为核心评估指标，而非单篇论文的完

OpenClaw 完整部署指南：从用户创建、安装配置到 Nginx 反向代理

本文档整合了 OpenClaw 的全流程部署方案。我们将首先创建一个专用的系统用户，然后在该用户环境下完成 OpenClaw 的安装、systemd 服务配置、安全认证设置，最后通过 Nginx 实现安全的反向代理访问。适用于：Ubuntu / Debian / Kali / Arch 等 Linux 发行版。第一部分：创建专用用户与环境准备为了系统安全，建议不要使用 root 直接运行服务，而是创建一个专用用户（例如 michah）。 1. 创建新用户使用 adduser 命令（推荐，交互式友好）或 useradd 创建用户。以下命令将创建用户 michah，自动建立家目录并提示设置密码。 # 需要 root 权限执行sudo adduser michah 按提示输入密码及用户信息（可直接回车跳过非必填项）

一、爬虫的基本原理

二、爬虫实现步骤

1. 准备工作

2. 详细代码实现

三、处理反爬机制

四、爬取复杂数据的技巧

1. JSON 数据爬取

2. 分页数据爬取

3. 下载文件

五、完整爬虫示例

六、注意事项

Read more

Flutter 三方库 m_list 的鸿蒙化适配指南 - 实现具备高阶谓词过滤与异步分片的增强列表处理、支持端侧集合数据的高效变换与分布式序列化实战

MySQL查看命令速查表

FARS全自动科研系统技术深度解析：从多智能体架构到工业化科研范式

OpenClaw 完整部署指南：从用户创建、安装配置到 Nginx 反向代理