Python 自然语言处理实战：基于《红楼梦》的文本挖掘与关键词提取 | 极客日志

PythonAI算法

Python 自然语言处理实战：基于《红楼梦》的文本挖掘与关键词提取

综述由AI生成通过 Python 实现《红楼梦》文本的自然语言处理全流程。首先按章节拆分原始文本并结构化存储，接着利用 jieba 分词结合自定义词库与停用词表过滤噪声，最后基于 TF-IDF 算法提取各卷核心关键词。案例展示了文本挖掘、中文分词及关键词提取的技术逻辑，代码具备高复用性，适用于其他中文文本分析。

修罗发布于 2026/3/28更新于 2026/5/2830 浏览

一、前言：自然语言处理与经典文本的碰撞

《红楼梦》作为中国古典文学的巅峰之作，其文本蕴含着丰富的人物关系、情节脉络和文化内涵。随着自然语言处理（NLP）技术的发展，用编程手段挖掘经典文本的核心信息已成为文学研究与技术实践结合的热门方向。本文将以《红楼梦》为研究对象，基于 Python 实现从文本分卷、分词处理到 TF-IDF 关键词提取的全流程实战，带大家掌握 NLP 基础应用的核心逻辑，同时感受经典文本与现代技术结合的魅力。

本文所有代码基于 Python 3.9 实现，仅依赖 Python 标准库及 pandas、jieba、scikit-learn 三个常用库，代码具备高可复用性，可直接适配其他中文文本的处理分析。

二、实战准备：环境搭建与文件准备

2.1 数据文件准备

本次实战需准备三类文件：

原始文本：红楼梦.txt（UTF-8 编码，包含完整文本内容）；
自定义词库：红楼梦词库.txt（补充《红楼梦》专属词汇，如'林黛玉''大观园'等，提升分词准确性）；
停用词表：StopwordsCN.txt（包含中文通用停用词，如'的''了''之'等，过滤无意义词汇）。

将所有文件放在同一项目目录下，确保代码可直接读取。

三、核心步骤 1：文本分卷处理 —— 拆分《红楼梦》章节

《红楼梦》原始文本是整体格式，首先需按'卷第'的标题特征将文本拆分为独立的卷文件，方便后续分卷分析。

3.1 核心逻辑解析

文本分卷的核心是遍历原始文本，识别'卷第'关键词作为分卷标识，遇到新卷名时关闭上一卷文件、创建新卷文件，并将文本内容写入对应文件。同时需处理文件名非法字符、目录不存在等异常情况，保证代码健壮性。

3.2 完整代码与注释

# 导入核心库
import os
import re
import pandas as pd

# 创建分卷目录（避免目录不存在报错）
if not os.path.exists(r'分卷'):
    os.makedirs(r'分卷')

# 清理文件名函数：解决特殊字符导致的文件创建失败问题
def clean_filename(filename):
    filename = filename.replace('\u3000', '_').replace(' ', '_') # 替换全角/半角空格
    filename = re.sub(r'[\\/:*?"<>|]', '', filename) # 移除操作系统非法字符
    filename = re.sub('_+', '_', filename).strip('_') # 清理多余下划线
    return filename


file = (, encoding=)
flag =  
juan_file = (, , encoding=) 


 line  file:
       line: 
        juan_name = line.strip() + 
        juan_name = clean_filename(juan_name) 
        path = os.path.join(, juan_name) 
        ()
         flag == : 
            juan_file = (path, , encoding=)
            flag = 
        : 
            juan_file.close()
            juan_file = (path, , encoding=)
        juan_file.write(line) 

juan_file.close() 
file.close()

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

# 初始化存储列表
filePaths = []
fileContents = []

# 遍历分卷目录，读取所有分卷文件
for root, dirs, files in os.walk(r'分卷'):
    for name in files:
        filePath = os.path.join(root, name)
        filePaths.append(filePath) # 异常处理：避免单个文件读取失败导致程序中断
        try:
            with open(filePath, 'r', encoding='utf-8') as f:
                fileContent = f.read()
        except Exception as e:
            print(f"读取文件{filePath}失败：{e}")
        fileContents.append(fileContent)

# 构建 DataFrame，结构化存储文件路径和内容
corpos = pd.DataFrame({
    'filePath': filePaths,
    'fileContent': fileContents
})
print("分卷文本结构化存储完成，数据量：", len(corpos))
print(corpos.head()) # 预览前 5 条数据

import jieba

# 加载自定义词库，提升《红楼梦》专属词汇分词准确性
jieba.load_userdict(r'红楼梦词库.txt')

# 读取停用词表，转为集合提升查询效率
stopwords = pd.read_csv(r'StopwordsCN.txt', encoding='utf8', engine='python', index_col=False)
stopwords_set = set(stopwords.stopword.dropna().values)

# 初始化分词结果文件
file_to_jieba = open(r'分词后汇总.txt', 'w', encoding='utf8')

# 遍历分卷文本，逐卷分词并过滤停用词
for index, row in corpos.iterrows():
    fileContent = row['fileContent']
    segs = jieba.cut(fileContent) # 精准分词
    
    # 初始化当前卷的分词字符串
    current_row_words = []
    
    for seg in segs:
        seg_stripped = seg.strip() # 过滤停用词和空字符串
        if seg_stripped not in stopwords_set and len(seg_stripped) > 0:
            current_row_words.append(seg_stripped)
    
    # 写入分词结果，每行对应一卷
    file_to_jieba.write(' '.join(current_row_words) + '\n')

file_to_jieba.close()
print("分词与停用词过滤完成，结果已保存至：分词后汇总.txt")

from sklearn.feature_extraction.text import TfidfVectorizer

# 读取分词后的数据
inFile = open(r'分词后汇总.txt', 'r', encoding='utf8')
corpus = inFile.readlines()
inFile.close()

# 初始化 TF-IDF 向量化器
vectorizer = TfidfVectorizer()

# 对分词文本进行 TF-IDF 计算
tfidf = vectorizer.fit_transform(corpus)

# 获取所有词汇列表
wordlist = vectorizer.get_feature_names_out()

# 将 TF-IDF 结果转为 DataFrame，便于按列（按卷）分析
df = pd.DataFrame(tfidf.T.todense(), index=wordlist)

# 提取每卷的 TOP10 关键词
for i in range(len(corpus)):
    featurelist = df.iloc[:, i].to_list()
    resdict = {}
    # 构建词汇 - 权重字典
    for j in range(0, len(wordlist)):
        resdict[wordlist[j]] = featurelist[j]
    # 按权重降序排序，取 TOP10
    resdict_sorted = sorted(resdict.items(), key=lambda x: x[1], reverse=True)
    print(f'第{i+1}卷的核心关键词:', resdict_sorted[0:10])

Python 自然语言处理实战：基于《红楼梦》的文本挖掘与关键词提取

一、前言：自然语言处理与经典文本的碰撞

二、实战准备：环境搭建与文件准备

2.1 数据文件准备

三、核心步骤 1：文本分卷处理 —— 拆分《红楼梦》章节

3.1 核心逻辑解析

3.2 完整代码与注释

更多推荐文章

相关免费在线工具

3.3 关键技术点说明

3.4 结果验证

四、核心步骤 2：分卷文本结构化存储

4.1 核心代码实现

4.2 关键技术点说明

五、核心步骤 3：中文分词与停用词过滤

5.1 分词与停用词过滤核心代码

5.2 关键技术点说明

5.3 分词效果验证

六、核心步骤 4：基于 TF-IDF 的关键词提取

6.1 关键词提取核心代码

6.2 关键技术点说明

6.3 结果解读

七、总结

更多推荐文章

相关免费在线工具

Python 自然语言处理实战：基于《红楼梦》的文本挖掘与关键词提取

一、前言：自然语言处理与经典文本的碰撞

二、实战准备：环境搭建与文件准备

2.1 数据文件准备

三、核心步骤 1：文本分卷处理 —— 拆分《红楼梦》章节

3.1 核心逻辑解析

3.2 完整代码与注释

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.3 关键技术点说明

3.4 结果验证

四、核心步骤 2：分卷文本结构化存储

4.1 核心代码实现

4.2 关键技术点说明

五、核心步骤 3：中文分词与停用词过滤

5.1 分词与停用词过滤核心代码

5.2 关键技术点说明

5.3 分词效果验证

六、核心步骤 4：基于 TF-IDF 的关键词提取

6.1 关键词提取核心代码

6.2 关键技术点说明

6.3 结果解读

七、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具