1 兴趣引入
本文旨在帮助初学者理解网络爬虫的基本概念、工作原理及核心实现步骤。通过本教程,读者将掌握使用 Python 进行数据抓取的基础能力。
爬虫(Web Crawler),从本质上来说,就是利用程序在互联网上自动获取对我们有价值的数据的技术。
2 基本原理
2.1 浏览器工作原理
当用户访问网页时,浏览器的工作流程如下:
- 解析数据:服务器响应数据后,浏览器需将计算机语言编写的代码翻译成人类可读的内容;
- 提取数据:用户在页面上挑选出有用的信息;
- 存储数据:将挑选出的有用数据保存在本地文件或数据库中。

2.2 爬虫工作原理
爬虫模拟了浏览器的行为,其核心流程包括:
- 获取数据:根据提供的网址向服务器发起请求,接收返回的数据;
- 解析数据:将服务器返回的原始数据(如 HTML)解析成结构化的格式;
- 提取数据:从中筛选并提取出目标字段;
- 储存数据:将处理后的数据保存,便于后续分析或使用。

3 爬虫核心步骤
3.1 环境准备
3.1.1 安装 requests 库
requests 是 Python 中最流行的 HTTP 客户端库。安装方法如下:
- Mac/Linux:在终端输入
pip3 install requests - Windows:在命令提示符(cmd)输入
pip install requests
提示:安装其他第三方库时通常遵循相同模式,即
pip install 模块名。
3.1.2 requests 库作用
该库可以帮我们下载网页源代码、文本、图片,甚至是音频和视频资源。其本质是向服务器发送请求并得到响应。
3.1.3 基础使用示例
import requests
# 发送 GET 请求
res = requests.get('https://www.example.com')
requests.get() 调用库中的 get() 方法,括号内的参数是目标网址。服务器响应结果赋值给变量 res。




