Python 爬虫入门：新手如何编写你的第一个脚本

Python 爬虫入门指南，介绍网络爬虫基本定义与工作流程。涵盖环境搭建、requests 与 BeautifulSoup 库的安装配置。提供完整代码示例展示如何发送请求、解析 HTML 及提取页面标题。强调添加 User-Agent 防反爬及编码处理技巧。提醒开发者遵守 robots.txt 协议，注意合法合规使用，避免对目标服务器造成过大压力。适合零基础初学者快速上手构建第一个爬虫脚本。

t ag发布于 2026/3/16更新于 2026/4/264 浏览

Python 爬虫入门：新手如何编写你的第一个脚本

一、爬虫的基本概念

1. 爬虫的定义

网络爬虫（Web Crawler）本质上是一个自动访问网页的程序。它按照一定的规则抓取网页内容，并提取出我们需要的信息。对于初学者来说，可以把爬虫想象成一个不知疲倦的'搬运工'，帮你从互联网的海量数据中把特定信息搬回家。

2. 爬虫的主要工作流程

一个标准的爬虫流程通常包含四个步骤：

发送请求：向目标服务器发起 HTTP 请求。
获取响应：接收服务器返回的网页源代码（HTML）。
解析数据：从 HTML 中提取出文本、图片链接或表格数据。
保存数据：将提取到的数据存储到本地文件或数据库中。

3. 常用 Python 工具

Python 之所以成为爬虫的首选语言，是因为它的库非常丰富且易用。

requests：负责发送 HTTP 请求，处理连接细节。
BeautifulSoup4：负责解析 HTML 文档，快速定位标签。
lxml：更快的解析器，适合处理大型页面。

二、环境准备

1. 安装 Python

确保你安装了 Python 3.x 版本。可以在终端输入 python --version 检查。如果未安装，请前往官网下载。

2. 安装必要库

打开命令行工具，使用 pip 安装核心依赖：

pip install requests beautifulsoup4

这一步很关键，缺了库后面会报错。

三、写第一个简单的爬虫

接下来我们实战一下。目标是抓取一个简单的静态页面，比如 Python 官网首页的标题。

import requests
from bs4 import BeautifulSoup

# 设置目标 URL
url = "https://www.python.org"

# 发送请求，添加 User-Agent 模拟浏览器
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36"
}
response = requests.get(url, headers=headers)

# 检查状态码
if response.status_code == 200:
    # 设置编码，防止中文乱码
    response.encoding = response.apparent_encoding
    soup = BeautifulSoup(response.text, 'html.parser')

    # 查找标题标签
    title_tag = soup.find('h1')
    if title_tag:
        print()
    :
        ()
:
    ()

Python 爬虫入门：新手如何编写你的第一个脚本

Python 爬虫入门：新手如何编写你的第一个脚本

一、爬虫的基本概念

1. 爬虫的定义

2. 爬虫的主要工作流程

3. 常用 Python 工具

二、环境准备

1. 安装 Python

2. 安装必要库

三、写第一个简单的爬虫

更多推荐文章

相关免费在线工具

四、注意事项

更多推荐文章

相关免费在线工具

Python 爬虫入门：新手如何编写你的第一个脚本

Python 爬虫入门：新手如何编写你的第一个脚本

一、爬虫的基本概念

1. 爬虫的定义

2. 爬虫的主要工作流程

3. 常用 Python 工具

二、环境准备

1. 安装 Python

2. 安装必要库

三、写第一个简单的爬虫

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

四、注意事项

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具