Python 爬虫入门指南
爬虫技术本质是通过编程自动从网页获取信息。简单来说,当你打开网页查看源代码时,看到的 HTML 结构就是爬虫工作的对象。它像一位不知疲倦的机器人,帮你阅读并提取这些内容。
本文将带你从零开始编写 Python 爬虫,即使是编程新手也能理解核心逻辑。
一、爬虫的基本流程
一个标准的爬虫工作流通常包含三个步骤:
- 发送请求:向目标网页发起 HTTP 请求,获取原始内容。
- 解析网页:从返回的 HTML 或 JSON 中提取你需要的数据。
- 保存数据:将提取到的信息写入文件或数据库,方便后续分析。
二、常用爬虫库
在 Python 生态中,开发爬虫主要依赖以下两个库:
- requests:负责发送网络请求,获取网页源码。
- BeautifulSoup:用于解析 HTML,快速定位和提取标签内的数据。
安装依赖
在终端执行以下命令即可安装(使用清华源加速):
pip install requests beautifulsoup4 -i https://pypi.tuna.tsinghua.edu.cn/simple
三、简单爬虫实战
我们从一个具体的例子入手,抓取百度首页的信息。
1. 获取网页内容
首先使用 requests 获取页面源码。注意,直接打印 response.text 会看到大量 HTML 代码,这就是页面的结构。
import requests
url = 'https://www.baidu.com'
response = requests.get(url)
print(response.text)
2. 解析网页内容
拿到源码后,用 BeautifulSoup 解析 HTML,提取标题。
from bs4 import BeautifulSoup
# 初始化解析器
soup = BeautifulSoup(response.text, 'html.parser')
# 获取标题文本
title = soup.title.text
print('网页标题:', title)
运行结果类似:
网页标题:百度一下,你就知道
3. 提取更多链接
除了标题,我们还可以遍历所有 <a> 标签,提取网站内的链接。这在抓取文章列表时非常有用。
links = soup.find_all('a')
for link in links:
href = link.get('href')
if href: # 过滤空链接
(href)


