Python 爬虫抓取小说并保存为 TXT 文件教程 | 极客日志

Python算法

Python 爬虫抓取小说并保存为 TXT 文件教程

使用 Python 结合 requests 和 BeautifulSoup 库爬取网络小说并保存为 TXT 文件的完整流程。内容包括环境搭建、代码编写、章节解析及异常处理，强调遵守 robots.txt 协议与版权规范，并提供反爬应对策略。

猫巷少女发布于 2026/3/29更新于 2026/5/2629 浏览

Python 爬虫抓取小说并保存为 TXT 文件教程

网络小说本地化存储常需下载为 TXT 格式。本文介绍使用 Python 爬虫抓取小说内容并保存的方法。

一、前期准备：环境与工具

1. 安装 Python 环境

确保电脑已安装 Python（推荐 3.7 及以上版本），可通过 Python 官网下载安装，安装时记得勾选'Add Python to PATH'（自动配置环境变量）。

2. 安装必要库

本次爬虫需要用到两个核心库：

requests：用于发送 HTTP 请求，获取网页内容；
BeautifulSoup4：用于解析 HTML 页面，提取小说章节和内容。

打开命令行（Win+R 输入 cmd，Mac 打开终端），输入以下命令安装：

pip install requests beautifulsoup4

3. 选择目标小说网站

本次以免费小说测试网站（示例：https://www.xsbiquge.com/15_15338/，仅用于教学，请勿爬取付费或有版权保护的网站）为例，爬取小说《诡秘之主》的正文内容。

注意：爬取前需遵守网站 robots.txt 协议（访问网站域名 + /robots.txt 可查看），且不得用于商业用途，尊重版权方权益。

二、爬虫核心逻辑拆解

访问小说目录页，获取所有章节的标题和跳转链接；
逐个访问章节链接，提取章节正文内容；
将章节标题 + 正文按顺序写入 txt 文件，保存到本地。

三、手把手编写爬虫代码

第一步：导入库并设置基础参数

新建一个 Python 文件（如 novel_crawler.py），写入以下代码：

import requests
from bs4 import BeautifulSoup
import time

# 目标小说目录页 URL（可替换为自己想爬的小说目录页）
catalog_url = "https://www.xsbiquge.com/15_15338/"

# 请求头：模拟浏览器访问，避免被网站反爬
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36"
}

User-Agent：伪装成浏览器访问，防止网站识别为爬虫而拒绝请求，可通过百度'我的 User-Agent'获取自己的浏览器标识。

第二步：爬取章节列表（标题 + 链接）

在上述代码后继续添加：

def get_chapter_list():
    
    :
        
        response = requests.get(catalog_url, headers=headers, timeout=)
        response.encoding = response.apparent_encoding  
        soup = BeautifulSoup(response.text, )  
        
        
        chapter_list = soup.find().find_all()
        
        
        chapters = []
         chapter  chapter_list:
            chapter_title = chapter.text  
            chapter_url =  + chapter[]  
            chapters.append({: chapter_title, : chapter_url})
        
        ()
         chapters
     Exception  e:
        ()

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online

def get_chapter_content(chapter_url):
    """根据章节链接，提取正文内容"""
    try:
        response = requests.get(chapter_url, headers=headers, timeout=10)
        response.encoding = response.apparent_encoding
        soup = BeautifulSoup(response.text, "html.parser")
        
        # 定位正文内容（同样根据网站结构调整，示例网站正文在 div#content 中）
        content_div = soup.find("div")
        if not content_div:
            return "正文获取失败"
        
        # 提取正文文本，去除多余空格和换行
        content = content_div.text.strip()
        
        # 替换网站自带的换行符（根据实际情况调整）
        content = content.replace("\n\n", "\n").replace("&nbsp;", " ")
        return content
    except Exception as e:
        print(f"获取章节内容失败：{e}")
        return "正文获取失败"

def save_to_txt(chapters, novel_name="诡秘之主"):
    """将所有章节内容保存为 txt 文件"""
    # 拼接保存路径（默认保存在当前文件夹，文件名为小说名）
    file_path = f"{novel_name}.txt"
    
    with open(file_path, "w", encoding="utf-8") as f:
        for i, chapter in enumerate(chapters, 1):
            title = chapter["title"]
            url = chapter["url"]
            print(f"正在爬取第 {i}/{len(chapters)} 章：{title}")
            
            # 获取正文
            content = get_chapter_content(url)
            
            # 写入文件（标题 + 正文，换行分隔）
            f.write(f"【{title}】\n\n{content}\n\n")
            
            # 延迟 1-2 秒，避免请求过快被反爬
            time.sleep(1.5)
    
    print(f"\n小说已成功保存到：{file_path}")

if __name__ == "__main__":
    # 1. 获取章节列表
    chapters = get_chapter_list()
    if not chapters:
        print("爬取失败，退出程序")
        exit()
    
    # 2. 保存到 txt 文件
    save_to_txt(chapters)

# 假设广告标签是 div 的类为 ad
for ad in content_div.find_all("div", class_="ad"):
    ad.decompose()

Python 爬虫抓取小说并保存为 TXT 文件教程

Python 爬虫抓取小说并保存为 TXT 文件教程

一、前期准备：环境与工具

1. 安装 Python 环境

2. 安装必要库

3. 选择目标小说网站

二、爬虫核心逻辑拆解

三、手把手编写爬虫代码

第一步：导入库并设置基础参数

第二步：爬取章节列表（标题 + 链接）

更多推荐文章

相关免费在线工具

第三步：爬取单个章节内容

第四步：保存内容到 txt 文件

第五步：主函数整合所有逻辑

四、运行爬虫并查看结果

五、常见问题与解决方案

1. 乱码问题

2. 无法获取章节或正文

3. 被网站封禁 IP

4. 爬取到的内容有广告

六、注意事项

更多推荐文章

相关免费在线工具

Python 爬虫抓取小说并保存为 TXT 文件教程

Python 爬虫抓取小说并保存为 TXT 文件教程

一、前期准备：环境与工具

1. 安装 Python 环境

2. 安装必要库

3. 选择目标小说网站

二、爬虫核心逻辑拆解

三、手把手编写爬虫代码

第一步：导入库并设置基础参数

第二步：爬取章节列表（标题 + 链接）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

第三步：爬取单个章节内容

第四步：保存内容到 txt 文件

第五步：主函数整合所有逻辑

四、运行爬虫并查看结果

五、常见问题与解决方案

1. 乱码问题

2. 无法获取章节或正文

3. 被网站封禁 IP

4. 爬取到的内容有广告

六、注意事项

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具