Python 爬虫入门与实战指南 | 极客日志

PythonAI算法

Python 爬虫入门与实战指南

Python 爬虫通过编程自动获取网页信息。基本流程包括发送请求、解析网页和保存数据。常用库有 requests 用于请求、BeautifulSoup 用于解析静态页面。动态页面需使用 Selenium 模拟浏览器，大规模爬取可用 Scrapy 框架。应对反爬机制可添加请求头、设置延迟或使用代理 IP。数据可保存为 CSV 文件或存入数据库如 SQLite。涵盖从入门到进阶的爬虫技术与实战示例。

暗影行者发布于 2026/2/5更新于 2026/7/207.8K 浏览

爬虫是指通过编程自动从网页上获取信息的技术。想象你平时打开网页，右键点击'查看源代码'，那些你看到的 HTML 代码就是网页的结构，而爬虫就像一位帮你阅读这些网页内容的'机器人'。

本文将详细讲解如何从零开始编写一个 Python 爬虫，即使是完全没接触过编程的朋友也能理解。

一、爬虫的基本流程

发送请求：爬虫向目标网页发送请求，获取网页内容。
解析网页：从返回的网页内容中提取你需要的信息。
保存数据：将提取到的信息保存到文件或数据库中，以便后续分析。

二、常用爬虫库

在 Python 中，有两个非常流行的库用于爬虫开发：

requests：用于发送网络请求，获取网页内容。
BeautifulSoup：用于解析网页内容，提取需要的数据。

1. 安装库

首先，你需要安装这两个库。在命令行中执行以下命令：

pip install requests beautifulsoup4 -i https://pypi.tuna.tsinghua.edu.cn/simple

三、简单爬虫示例

接下来，我们会编写一个简单的爬虫，从一个网页上获取数据。

1. 获取网页内容

第一步是使用 requests 库来获取网页的内容。我们以获取百度首页为例。

import requests

# 发送请求获取网页内容
url = 'https://www.baidu.com'
response = requests.get(url)

# 打印网页内容
print(response.text)

解释：

requests.get(url) 用于向指定网址发送请求并获取网页内容。
response.text 返回网页的 HTML 代码。

运行后，你会看到大量的 HTML 代码，这就是百度首页的内容。

2. 解析网页内容

获取网页内容后，我们需要用 BeautifulSoup 库来解析 HTML，提取我们需要的信息。接下来我们解析百度首页的标题。

from bs4 import BeautifulSoup

# 解析网页内容
soup = BeautifulSoup(response.text, 'html.parser')

# 获取标题
title = soup.title.text
print('网页标题:', title)

解释：

BeautifulSoup(response.text, 'html.parser') 用于解析 HTML 内容。
soup.title.text 返回网页的标题。

输出：

网页标题：百度一下，你就知道

3. 提取更多信息

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

# 获取所有的<a>标签
links = soup.find_all('a')

# 打印所有链接
for link in links:
    href = link.get('href')
    print(href)

pip install selenium -i https://pypi.tuna.tsinghua.edu.cn/simple

from selenium import webdriver

# 设置浏览器驱动路径
driver = webdriver.Chrome()

# 打开网页
driver.get('https://www.example.com')

# 获取网页标题
print(driver.title)

# 关闭浏览器
driver.quit()

pip install scrapy -i https://pypi.tuna.tsinghua.edu.cn/simple

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
}
response = requests.get(url, headers=headers)

import time

# 延迟 2 秒后发送下一个请求
time.sleep(2)

proxies = {
    'http': 'http://10.10.1.10:3128',
    'https': 'https://10.10.1.10:1080',
}
response = requests.get(url, proxies=proxies)

import csv

# 保存数据到 CSV 文件
with open('data.csv', 'w', newline='', encoding='utf-8') as file:
    writer = csv.writer(file)
    writer.writerow(['标题', '链接'])  # 写入表头
    for link in links:
        writer.writerow([link.text, link.get('href')])

import sqlite3

# 连接数据库（如果不存在会自动创建）
conn = sqlite3.connect('data.db')
cursor = conn.cursor()

# 创建表
cursor.execute('CREATE TABLE IF NOT EXISTS links (title TEXT, href TEXT)')

# 插入数据
for link in links:
    cursor.execute('INSERT INTO links (title, href) VALUES (?, ?)', (link.text, link.get('href')))

# 提交事务并关闭连接
conn.commit()
conn.close()

Python 爬虫入门与实战指南

一、爬虫的基本流程

二、常用爬虫库

1. 安装库

三、简单爬虫示例

1. 获取网页内容

解释：

2. 解析网页内容

解释：

3. 提取更多信息

更多推荐文章

相关免费在线工具

解释：

四、爬虫的分类

1. 简单爬虫（静态网页）

2. 动态爬虫（处理 JavaScript 生成的内容）

安装 `Selenium`:

示例：

3. 爬虫框架（Scrapy）

安装 Scrapy:

五、爬虫常见问题及解决方案

1. 网页反爬机制

解决方法：添加请求头

2. 延迟访问

3. 代理 IP

六、保存数据

1. 保存到 CSV 文件

2. 保存到数据库

七、总结

更多推荐文章

相关免费在线工具

Python 爬虫入门与实战指南

一、爬虫的基本流程

二、常用爬虫库

1. 安装库

三、简单爬虫示例

1. 获取网页内容

解释：

2. 解析网页内容

解释：

3. 提取更多信息

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

解释：

四、爬虫的分类

1. 简单爬虫（静态网页）

2. 动态爬虫（处理 JavaScript 生成的内容）

安装 Selenium:

示例：

3. 爬虫框架（Scrapy）

安装 Scrapy:

五、爬虫常见问题及解决方案

1. 网页反爬机制

解决方法：添加请求头

2. 延迟访问

3. 代理 IP

六、保存数据

1. 保存到 CSV 文件

2. 保存到数据库

七、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

安装 `Selenium`: