爬虫就像一位自动化的'信息采集员',能帮你自动从网页中提取所需内容,比如批量抓取文章、整理数据表格等。Python 凭借简洁的语法和强大的库支持,成为爬虫开发的首选语言。本文将从基础到实战,带你快速掌握 Python 爬虫核心技能。
一、爬虫核心工作流程
爬虫的工作逻辑很简单,三步就能搞定:
- 发送请求:向目标网页发起访问,获取网页原始内容;
- 解析内容:从杂乱的网页代码中筛选出有用信息,比如标题、链接、数据等;
- 保存数据:将提取的信息存储到文件或数据库,方便后续查看和分析。
二、必备爬虫库安装与介绍
Python 爬虫的高效离不开专用库,核心必备两个基础库,进阶场景需额外补充工具:
1. 基础库(必装)
- requests:负责发送网络请求,快速获取网页 HTML 代码;
- BeautifulSoup4:专注解析 HTML 内容,轻松提取目标数据。
2. 安装命令
打开命令行,输入以下命令:
pip install requests beautifulsoup4 -i https://pypi.tuna.tsinghua.edu.cn/simple
3. 进阶工具(按需安装)
- Selenium:处理动态网页(数据由 JavaScript 生成),可模拟点击、滚动等浏览器操作。
pip install selenium -i https://pypi.tuna.tsinghua.edu.cn/simple
- Scrapy:大规模爬虫框架,支持异步爬取,适合复杂项目。
pip install scrapy -i https://pypi.tuna.tsinghua.edu.cn/simple
三、实战:编写第一个简单爬虫
以抓取百度首页的标题和所有链接为例,手把手教你落地实操:
1. 第一步:获取网页内容
用 requests 库向百度首页发送请求,获取 HTML 代码:
import requests
url = 'https://www.baidu.com'
response = requests.get(url)
print(response.text)
关键说明:requests.get(url) 是核心方法,response.text 会返回网页的纯文本 HTML 代码。
2. 第二步:解析网页,提取关键信息
用 BeautifulSoup 解析 HTML,先提取网页标题,再批量抓取所有链接:
from bs4 import BeautifulSoup
soup = BeautifulSoup(response.text, 'html.parser')
# 1. 提取网页标题
title = soup.title.text
print('网页标题:', title)
# 2. 提取所有链接(<a>标签的 href 属性)
links = soup.find_all()
link links:
link_text = link.text
link_url = link.get()
()


