Python 入门:从零编写你的第一个网络爬虫
想从互联网上抓取数据,但不知道从何下手?作为开发者,掌握基础的爬虫技能不仅能帮你快速收集信息,还能让你更深入理解 HTTP 协议和网页结构。这篇文章不讲复杂的框架,只带你用最简单的 Python 代码跑通一个完整的爬取流程。
一、爬虫的基本概念
1. 爬虫的定义
简单来说,网络爬虫(Web Crawler)就是一个自动访问网页的程序。它模拟浏览器行为,下载页面内容,然后提取你需要的数据。无论是做数据分析、竞品监控还是训练 AI 模型,数据获取往往是第一步。
2. 爬虫的主要工作流程
虽然不同场景下逻辑各异,但核心步骤通常一致:
- 发送请求:向目标服务器发起 HTTP 请求。
- 获取响应:接收服务器返回的 HTML、JSON 或图片等数据。
- 解析数据:从原始内容中定位并提取关键信息。
- 存储数据:将结果保存到本地文件或数据库。
3. 常用 Python 工具
Python 之所以成为爬虫首选,是因为生态丰富。最核心的两个库是 requests 用于发送请求,BeautifulSoup4 用于解析 HTML。它们安装简单,文档齐全,非常适合初学者上手。
二、环境准备
1. 安装 Python
确保你的电脑上已安装 Python 3.x 版本。在终端输入 python --version 检查。如果未安装,建议去官网下载最新稳定版,安装时记得勾选 "Add Python to PATH"。
2. 安装必要库
打开命令行(Terminal 或 CMD),使用 pip 安装依赖。这里我们只需要两个最常用的库:
pip install requests beautifulsoup4
安装过程会显示进度条,看到 Successfully installed 就代表成功了。如果遇到网络问题,可以加上国内镜像源,比如 -i https://pypi.tuna.tsinghua.edu.cn/simple。
三、写第一个简单的爬虫
准备好了吗?接下来我们直接动手。为了演示方便,我们选取一个公开且稳定的测试网站,避免对真实站点造成压力。
1. 发送请求
首先,我们需要用 requests 库获取网页源码。注意设置 User-Agent,否则有些网站会拒绝访问,因为默认请求头看起来像机器脚本。
import requests
from bs4 import BeautifulSoup
url = 'https://httpbin.org/html'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
}
response = requests.get(url, headers=headers)
# 检查状态码是否为 200
if response.status_code == 200:
print('请求成功')
else:
print()


