Python 爬虫爬取小说并保存为 TXT 文件教程 | 极客日志

Python算法

Python 爬虫爬取小说并保存为 TXT 文件教程

使用 Python 的 requests 和 BeautifulSoup 库爬取网络小说目录及章节内容，并将结果保存为本地 TXT 文件。流程包括环境配置、代码编写、反爬策略处理及常见问题解决，适用于学习网页数据采集技术。

神经兮兮发布于 2026/2/8更新于 2026/6/233 浏览

本教程演示如何使用 Python 爬虫将网络小说下载为本地 TXT 文件，涵盖环境配置、代码编写及常见问题处理。

一、前期准备：环境与工具

1. 安装 Python 环境

确保电脑已安装 Python（推荐 3.7 及以上版本），可通过 Python 官网下载安装。安装时记得勾选 'Add Python to PATH'（自动配置环境变量）。

2. 安装必要库

本次爬虫需要用到两个核心库：

requests：用于发送 HTTP 请求，获取网页内容；
BeautifulSoup4：用于解析 HTML 页面，提取小说章节和内容。

打开命令行（Win+R 输入 cmd，Mac 打开终端），输入以下命令安装：

pip install requests beautifulsoup4

3. 选择目标小说网站

本次以免费小说测试网站（示例：https://www.xsbiquge.com/15_15338/，仅用于教学，请勿爬取付费或有版权保护的网站）为例，爬取小说《诡秘之主》的正文内容。

注意：爬取前需遵守网站 robots.txt 协议（访问网站域名 + /robots.txt 可查看），且不得用于商业用途，尊重版权方权益。

二、爬虫核心逻辑拆解

访问小说目录页，获取所有章节的标题和跳转链接；
逐个访问章节链接，提取章节正文内容；
将章节标题 + 正文按顺序写入 txt 文件，保存到本地。

三、手把手编写爬虫代码

第一步：导入库并设置基础参数

新建一个 Python 文件（如 novel_crawler.py），写入以下代码：

import requests
from bs4 import BeautifulSoup
import time

# 目标小说目录页 URL（可替换为自己想爬的小说目录页）
catalog_url = "https://www.xsbiquge.com/15_15338/"

# 请求头：模拟浏览器访问，避免被网站反爬
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36"
}

User-Agent：伪装成浏览器访问，防止网站识别为爬虫而拒绝请求，可通过浏览器开发者工具获取自己的浏览器标识。

第二步：爬取章节列表（标题 + 链接）

在上述代码后继续添加：

def get_chapter_list():
    """获取所有章节的标题和链接"""
    :
        
        response = requests.get(catalog_url, headers=headers, timeout=)
        response.encoding = response.apparent_encoding  
        soup = BeautifulSoup(response.text, )
        
        
        
        chapter_list = soup.find(, class_=).find_all()
        
        
        chapters = []
         chapter  chapter_list:
            chapter_title = chapter.text  
            chapter_url =  + chapter[]  
            chapters.append({: chapter_title, : chapter_url})
        
        ()
         chapters
     Exception  e:
        ()

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online

def get_chapter_content(chapter_url):
    """根据章节链接，提取正文内容"""
    try:
        response = requests.get(chapter_url, headers=headers, timeout=10)
        response.encoding = response.apparent_encoding
        soup = BeautifulSoup(response.text, "html.parser")
        
        # 定位正文内容（同样根据网站结构调整，示例网站正文在 div.content 中）
        content_div = soup.find("div", class_="content")
        if not content_div:
            return "正文获取失败"
        
        # 提取正文文本，去除多余空格和换行
        content = content_div.text.strip()
        # 替换网站自带的换行符（根据实际情况调整）
        content = content.replace("\n\n", "\n").replace("&nbsp;", " ")
        return content
    except Exception as e:
        print(f"获取章节内容失败：{e}")
        return "正文获取失败"

def save_to_txt(chapters, novel_name="诡秘之主"):
    """将所有章节内容保存为 txt 文件"""
    # 拼接保存路径（默认保存在当前文件夹，文件名为小说名）
    file_path = f"{novel_name}.txt"
    with open(file_path, "w", encoding="utf-8") as f:
        for i, chapter in enumerate(chapters, 1):
            title = chapter["title"]
            url = chapter["url"]
            print(f"正在爬取第 {i}/{len(chapters)} 章：{title}")
            
            # 获取正文
            content = get_chapter_content(url)
            
            # 写入文件（标题 + 正文，换行分隔）
            f.write(f"【{title}】\n\n{content}\n\n")
            
            # 延迟 1-2 秒，避免请求过快被反爬
            time.sleep(1.5)
    print(f"\n小说已成功保存到：{file_path}")

if __name__ == "__main__":
    # 1. 获取章节列表
    chapters = get_chapter_list()
    if not chapters:
        print("爬取失败，退出程序")
        exit()
    
    # 2. 保存到 txt 文件
    save_to_txt(chapters)

# 假设广告标签是 div.ad
for ad in content_div.find_all("div", class_="ad"):
    ad.decompose()  # 删除广告标签

Python 爬虫爬取小说并保存为 TXT 文件教程

一、前期准备：环境与工具

1. 安装 Python 环境

2. 安装必要库

3. 选择目标小说网站

二、爬虫核心逻辑拆解

三、手把手编写爬虫代码

第一步：导入库并设置基础参数

第二步：爬取章节列表（标题 + 链接）

更多推荐文章

相关免费在线工具

第三步：爬取单个章节内容

第四步：保存内容到 txt 文件

第五步：主函数整合所有逻辑

四、运行爬虫并查看结果

五、常见问题与解决方案

1. 乱码问题

2. 无法获取章节或正文

3. 被网站封禁 IP

4. 爬取到的内容有广告

六、注意事项

更多推荐文章

相关免费在线工具

Python 爬虫爬取小说并保存为 TXT 文件教程

一、前期准备：环境与工具

1. 安装 Python 环境

2. 安装必要库

3. 选择目标小说网站

二、爬虫核心逻辑拆解

三、手把手编写爬虫代码

第一步：导入库并设置基础参数

第二步：爬取章节列表（标题 + 链接）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

第三步：爬取单个章节内容

第四步：保存内容到 txt 文件

第五步：主函数整合所有逻辑

四、运行爬虫并查看结果

五、常见问题与解决方案

1. 乱码问题

2. 无法获取章节或正文

3. 被网站封禁 IP

4. 爬取到的内容有广告

六、注意事项

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具