Python 入门：从零编写你的第一个网络爬虫

想从互联网上抓取数据，但不知道从何下手？作为开发者，掌握基础的爬虫技能不仅能帮你快速收集信息，还能让你更深入理解 HTTP 协议和网页结构。这篇文章不讲复杂的框架，只带你用最简单的 Python 代码跑通一个完整的爬取流程。

一、爬虫的基本概念

1. 爬虫的定义

简单来说，网络爬虫（Web Crawler）就是一个自动访问网页的程序。它模拟浏览器行为，下载页面内容，然后提取你需要的数据。无论是做数据分析、竞品监控还是训练 AI 模型，数据获取往往是第一步。

2. 爬虫的主要工作流程

虽然不同场景下逻辑各异，但核心步骤通常一致：

发送请求：向目标服务器发起 HTTP 请求。
获取响应：接收服务器返回的 HTML、JSON 或图片等数据。
解析数据：从原始内容中定位并提取关键信息。
存储数据：将结果保存到本地文件或数据库。

3. 常用 Python 工具

Python 之所以成为爬虫首选，是因为生态丰富。最核心的两个库是 requests 用于发送请求，BeautifulSoup4 用于解析 HTML。它们安装简单，文档齐全，非常适合初学者上手。

二、环境准备

1. 安装 Python

确保你的电脑上已安装 Python 3.x 版本。在终端输入 python --version 检查。如果未安装，建议去官网下载最新稳定版，安装时记得勾选 "Add Python to PATH"。

2. 安装必要库

打开命令行（Terminal 或 CMD），使用 pip 安装依赖。这里我们只需要两个最常用的库：

pip install requests beautifulsoup4

安装过程会显示进度条，看到 Successfully installed 就代表成功了。如果遇到网络问题，可以加上国内镜像源，比如 -i https://pypi.tuna.tsinghua.edu.cn/simple。

三、写第一个简单的爬虫

准备好了吗？接下来我们直接动手。为了演示方便，我们选取一个公开且稳定的测试网站，避免对真实站点造成压力。

1. 发送请求

首先，我们需要用 requests 库获取网页源码。注意设置 User-Agent，否则有些网站会拒绝访问，因为默认请求头看起来像机器脚本。

import requests
from bs4 import BeautifulSoup

url = 'https://httpbin.org/html'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
}

response = requests.get(url, headers=headers)
# 检查状态码是否为 200
if response.status_code == 200:
    print('请求成功')
else:
    print()

Python 入门：从零编写你的第一个网络爬虫