Python 爬虫:自动获取小说内容
一、前言
在 Python 中,使用爬虫获取网络信息是一项非常实用的技能。本教程将以自动获取小说《斗罗大陆》为例,带你完整走一遍爬虫流程,让你对 “发送请求 — 解析数据 — 保存内容” 有清晰的理解。(ps:本教程仅用于技术学习与交流,在进行任何网络爬取前,请遵循相关法律法
规,尊重版权)
二、爬虫核心四步
一个基础的爬虫任务,通常可以拆解为以下四个关键步骤:
1.如何发送请求:使用python库向服务器发起网络请求
2.发送给谁:明确目标资源的URL地址
3.怎么伪装自己:设置请求头,模拟正常浏览器行为,避免被识别为爬虫
4.响应信息处理:接收服务器返回的数据,并从中提取有效内容
三、环境准备
我们将使用两个核心库来完成这个任务:
·requests:用于发送HTTP请求,获取网页源代码
·lxml:用于高效解析HTML、XML文档,提取我们需要的数据
在开始编码前,请先在终端执行以下命令安装依赖:

四、代码实现与详解
1.引入依赖库
在python脚本的开头,导入我们需要的库:

2.定义目标与伪装
为了成功获取数据,我们需要明确目标 URL,并 “伪装” 成浏览器:

需要注意的是,User-Agent需要在任意网页中源码里面获取

3.发送请求与处理响应
使用requests.get()发送请求,并处理返回的结果

4.解析HTML提取内容
使用lxml和xpath语法,从杂乱的HTML中精准提取小说标题和正文
需要注意的是,要提前安装好xpath插件,可以直接去edge扩展程序里搜索xpath selector

(补充:e.xpath()部分要到具体网页源码中获取
标题:

正文:

5.保存到本地文件
将提取到的小说内容保存为本地 TXT 文件,方便离线阅读

6.循环遍历,获取所有章节内容
url更新为下一章节的url地址,再用for循环遍历输出

五、完整可运行代码

(补充:for循环次数可以自己决定,此代码仅循环3次