Python 文本分析实战：基于 TF-IDF 的《红楼梦》关键词提取

介绍使用 Python 对《红楼梦》进行文本分析的完整流程。首先通过正则匹配将非结构化文本拆分为章节文件，利用 jieba 分词处理中文并过滤停用词，最后结合 TF-IDF 算法量化词汇重要性，提取各章节核心关键词。该方案适用于长篇古典文学的结构化分析与特征挖掘。

JavaCoder发布于 2026/3/30更新于 2026/5/2321 浏览

本项目以'文本结构化→特征量化→结果分析'为核心逻辑，先将非结构化的全文 txt 拆分为结构化章节文件，再通过分词和 TF-IDF 算法实现词汇重要性量化，可快速适配其他长篇文本的分析需求。

关键技术点包括：正则匹配定位章节、jieba 分词适配古典文学、TF-IDF 算法量化词汇重要性。

一、技术栈准备

本次实战所需的核心库：

基础库：os（文件/路径处理）、re（正则匹配）、pandas（数据结构化）；
中文处理：jieba（中文分词），支持自定义词库；
算法库：sklearn.feature_extraction.text.TfidfVectorizer（TF-IDF 特征提取）。

二、实战步骤：从文本拆分到关键词提取

（一）步骤 1：拆分《红楼梦》为 120 个章节文件

import os
import re
import pandas as pd

# ===================== 核心优化：适配文本格式 + 解决报错 =====================
# 1. 确保保存目录存在（避免路径不存在报错）
output_dir = r'.\红楼梦\分卷 1'
os.makedirs(output_dir, exist_ok=True)

# 2. 打开源文件（使用 with 语句自动关闭，更安全）
with open(r'.\红楼梦\红楼梦.txt', encoding='utf-8') as file:
    flag = 0  # 用来标记当前是不是在第一次保存文件
    juan_file = None  # 初始化文件对象，避免未定义报错

    # 定义：清理 Windows 非法文件名字符（解决 OSError 报错）
    def clean_filename(filename):
        illegal_chars = r'[\\/:*?"<>|，。？！；："''《》()（）【】]'
        clean_name = re.sub(illegal_chars, '', filename)
        return clean_name[:50] + '.txt'  # 限制文件名长度，避免超长

    # 定义：精准匹配'卷 + 回'标题（适配文本中'上卷 第一回 XXX'格式）
    chapter_pattern = re.compile(r'^[ \s]*([上下]卷\s+第 [一二三四五六七八九十百零]+回.*)$', re.MULTILINE)

     line  file:
        line_strip = line.strip()
         = chapter_pattern.(line_strip)
         :
            
            juan_title = .group().strip()
            
            juan_name = clean_filename(juan_title)
            
            path = os.path.join(output_dir, juan_name)
            ()
            
             flag == :  
                 juan_file:
                    juan_file.close()
                juan_file = (path, , encoding=)
                juan_file.write(line)
                flag = 
            :  
                juan_file.close()
                juan_file = (path, , encoding=)
                juan_file.write(line)
                
            
            
             juan_file   :
                juan_file.write(line)


 juan_file:
    juan_file.close()
()

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

import pandas as pd
import os

filePaths = []
fileContents = []

for root, dirs, files in os.walk(r'.\红楼梦\分卷 1'):
    for name in files:
        filePath = os.path.join(root, name)
        filePaths.append(filePath)
        
        f = open(filePath, 'r', encoding='utf-8')
        fileContent = f.read()
        f.close()
        fileContents.append(fileContent)

corpos = pd.DataFrame({
    'filePath': filePaths,
    'fileContent': fileContents
})
print(corpos)

import jieba
import pandas as pd

# 导入分词库，把红楼梦专属的单词添加到 jieba 词库中
jieba.load_userdict(r'.\红楼梦\红楼梦词库.txt')

# 导入停用词库，把无关心的词提出
stopwords = pd.read_csv(r'.\红楼梦\StopwordsCN.txt', encoding='utf8', engine='python', index_col=False)

file_to_jieba = open(r'.\红楼梦\分词后汇总 1.txt', 'w', encoding='utf-8')

for index, row in corpos.iterrows():
    fileContent = row['fileContent']
    segs = jieba.cut(fileContent)
    
    juan_ci = ''
    for seg in segs:
        if seg not in stopwords.stopword.values and len(seg.strip()) > 0:
            juan_ci = juan_ci + seg + ' '
    
    file_to_jieba.write(juan_ci + '\n')

file_to_jieba.close()

from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd

inFile = open(r".\红楼梦\分词后汇总 1.txt", 'r', encoding='utf-8')
corpus = inFile.readlines()  # 返回一个列表，列表一个元素就是一行内容

vectorizer = TfidfVectorizer()
tfidf = vectorizer.fit_transform(corpus)  # 传入数据，返回包含 TF-IDF 的向量值
wordlist = vectorizer.get_feature_names_out()  # 获取特征名称，所有的词

df = pd.DataFrame(tfidf.T.todense(), index=wordlist)

for i in range(len(corpus)):
    featurelist = df.iloc[:, i].to_list()
    resdict = {}
    for j in range(0, len(wordlist)):
        resdict[wordlist[j]] = featurelist[j]
    
    resdict = sorted(resdict.items(), key=lambda x: x[1], reverse=True)
    print('第{}回的核心关键词：'.format(i+1), resdict[0:10])

Python 文本分析实战：基于 TF-IDF 的《红楼梦》关键词提取

一、技术栈准备

二、实战步骤：从文本拆分到关键词提取

（一）步骤 1：拆分《红楼梦》为 120 个章节文件

更多推荐文章

相关免费在线工具

（二）步骤 2：结构化读取章节数据

（三）步骤 3：中文分词 + 停用词过滤

（四）步骤 4：TF-IDF 提取核心关键词

更多推荐文章

相关免费在线工具

Python 文本分析实战：基于 TF-IDF 的《红楼梦》关键词提取

一、技术栈准备

二、实战步骤：从文本拆分到关键词提取

（一）步骤 1：拆分《红楼梦》为 120 个章节文件

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

（二）步骤 2：结构化读取章节数据

（三）步骤 3：中文分词 + 停用词过滤

（四）步骤 4：TF-IDF 提取核心关键词

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具