Python 爬虫入门:新手如何编写你的第一个脚本
一、爬虫的基本概念
1. 爬虫的定义
网络爬虫(Web Crawler)本质上是一个自动访问网页的程序。它按照一定的规则抓取网页内容,并提取出我们需要的信息。对于初学者来说,可以把爬虫想象成一个不知疲倦的'搬运工',帮你从互联网的海量数据中把特定信息搬回家。
2. 爬虫的主要工作流程
一个标准的爬虫流程通常包含四个步骤:
- 发送请求:向目标服务器发起 HTTP 请求。
- 获取响应:接收服务器返回的网页源代码(HTML)。
- 解析数据:从 HTML 中提取出文本、图片链接或表格数据。
- 保存数据:将提取到的数据存储到本地文件或数据库中。
3. 常用 Python 工具
Python 之所以成为爬虫的首选语言,是因为它的库非常丰富且易用。
- requests:负责发送 HTTP 请求,处理连接细节。
- BeautifulSoup4:负责解析 HTML 文档,快速定位标签。
- lxml:更快的解析器,适合处理大型页面。
二、环境准备
1. 安装 Python
确保你安装了 Python 3.x 版本。可以在终端输入 python --version 检查。如果未安装,请前往官网下载。
2. 安装必要库
打开命令行工具,使用 pip 安装核心依赖:
pip install requests beautifulsoup4
这一步很关键,缺了库后面会报错。
三、写第一个简单的爬虫
接下来我们实战一下。目标是抓取一个简单的静态页面,比如 Python 官网首页的标题。
import requests
from bs4 import BeautifulSoup
# 设置目标 URL
url = "https://www.python.org"
# 发送请求,添加 User-Agent 模拟浏览器
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36"
}
response = requests.get(url, headers=headers)
# 检查状态码
if response.status_code == 200:
# 设置编码,防止中文乱码
response.encoding = response.apparent_encoding
soup = BeautifulSoup(response.text, 'html.parser')
# 查找标题标签
title_tag = soup.find('h1')
if title_tag:
print()
:
()
:
()


