Python 爬虫基础入门与实战详解 | 极客日志

Python大前端算法

Python 爬虫基础入门与实战详解

Python 爬虫技术通过编程自动获取网页信息。核心流程包括发送请求、解析网页和保存数据。常用库有 requests 用于请求，BeautifulSoup 用于解析 HTML。静态网页可直接爬取，动态网页需使用 Selenium 模拟浏览器操作，大规模任务推荐 Scrapy 框架。应对反爬机制可添加请求头伪装、设置访问延迟或使用代理 IP。数据保存支持 CSV 文件或 SQLite 数据库。掌握这些基础即可实现基本的数据抓取功能。

CloudNative发布于 2026/3/22更新于 2026/6/217 浏览

爬虫是指通过编程自动从网页上获取信息的技术。想象你平时打开网页，右键点击'查看源代码'，那些你看到的 HTML 代码就是网页的结构，而爬虫就像一位帮你阅读这些网页内容的'机器人'。

本文将详细讲解如何从零开始编写一个 Python 爬虫，即使是完全没接触过编程的朋友也能理解。

一、爬虫的基本流程

发送请求：爬虫向目标网页发送请求，获取网页内容。
解析网页：从返回的网页内容中提取你需要的信息。
保存数据：将提取到的信息保存到文件或数据库中，以便后续分析。

二、常用爬虫库

在 Python 中，有两个非常流行的库用于爬虫开发：

requests：用于发送网络请求，获取网页内容。
BeautifulSoup：用于解析网页内容，提取需要的数据。

1. 安装库

首先，你需要安装这两个库。在命令行中执行以下命令：

pip install requests beautifulsoup4 -i https://pypi.tuna.tsinghua.edu.cn/simple

三、简单爬虫示例

接下来，我们会编写一个简单的爬虫，从一个网页上获取数据。

1. 获取网页内容

第一步是使用 requests 库来获取网页的内容。我们以获取百度首页为例。

import requests # 发送请求获取网页内容 url = 'https://www.baidu.com' response = requests.get(url) # 打印网页内容 print(response.text)

解释：

requests.get(url) 用于向指定网址发送请求并获取网页内容。
response.text 返回网页的 HTML 代码。

运行后，你会看到大量的 HTML 代码，这就是百度首页的内容。

2. 解析网页内容

获取网页内容后，我们需要用 BeautifulSoup 库来解析 HTML，提取我们需要的信息。接下来我们解析百度首页的标题。

from bs4 import BeautifulSoup # 解析网页内容 soup = BeautifulSoup(response.text, 'html.parser') # 获取标题 title = soup.title.text print('网页标题:', title)

解释：

BeautifulSoup(response.text, 'html.parser') 用于解析 HTML 内容。
soup.title.text 返回网页的标题。

输出：

网页标题：百度一下，你就知道

3. 提取更多信息

让我们继续提取网页中的链接（<a>标签中的 href 属性）。这非常有用，例如你想抓取某个网站上的所有文章链接。

# 获取所有的<a>标签 links = soup.find_all('a') # 打印所有链接 for link in links: 		href = link.get('href') 		print(href)

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online

pip install selenium -i https://pypi.tuna.tsinghua.edu.cn/simple

from selenium import webdriver # 设置浏览器驱动路径 driver = webdriver.Chrome() # 打开网页 driver.get('https://www.example.com') # 获取网页标题 print(driver.title) # 关闭浏览器 driver.quit()

pip install scrapy -i https://pypi.tuna.tsinghua.edu.cn/simple

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
}
response = requests.get(url, headers=headers)

import time # 延迟 2 秒后发送下一个请求 time.sleep(2)

proxies = {
    'http': 'http://10.10.1.10:3128',
    'https': 'https://10.10.1.10:1080',
}
response = requests.get(url, proxies=proxies)

import csv # 保存数据到 CSV 文件 with open('data.csv', 'w', newline='', encoding='utf-8') as file: 	writer = csv.writer(file) 	writer.writerow(['标题', '链接']) # 写入表头 	for link in links: 		writer.writerow([link.text, link.get('href')])

import sqlite3 # 连接数据库（如果不存在会自动创建） conn = sqlite3.connect('data.db') cursor = conn.cursor() # 创建表 cursor.execute('CREATE TABLE IF NOT EXISTS links (title TEXT, href TEXT)') # 插入数据 for link in links: 	cursor.execute('INSERT INTO links (title, href) VALUES (?, ?)', (link.text, link.get('href'))) # 提交事务并关闭连接 conn.commit() conn.close()

Python 爬虫基础入门与实战详解

一、爬虫的基本流程

二、常用爬虫库

1. 安装库

三、简单爬虫示例

1. 获取网页内容

解释：

2. 解析网页内容

解释：

3. 提取更多信息

更多推荐文章

相关免费在线工具

解释：

四、爬虫的分类

1. 简单爬虫（静态网页）

2. 动态爬虫（处理 JavaScript 生成的内容）

安装 `Selenium`:

示例：

3. 爬虫框架（Scrapy）

安装 Scrapy:

五、爬虫常见问题及解决方案

1. 网页反爬机制

解决方法：添加请求头

2. 延迟访问

3. 代理 IP

六、保存数据

1. 保存到 CSV 文件

2. 保存到数据库

七、总结

更多推荐文章

相关免费在线工具

Python 爬虫基础入门与实战详解

一、爬虫的基本流程

二、常用爬虫库

1. 安装库

三、简单爬虫示例

1. 获取网页内容

解释：

2. 解析网页内容

解释：

3. 提取更多信息

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

解释：

四、爬虫的分类

1. 简单爬虫（静态网页）

2. 动态爬虫（处理 JavaScript 生成的内容）

安装 Selenium:

示例：

3. 爬虫框架（Scrapy）

安装 Scrapy:

五、爬虫常见问题及解决方案

1. 网页反爬机制

解决方法：添加请求头

2. 延迟访问

3. 代理 IP

六、保存数据

1. 保存到 CSV 文件

2. 保存到数据库

七、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

安装 `Selenium`: