Python 基于朴素贝叶斯的中文评价情感分析

前言

在电商、本地生活、内容平台等场景中，每天都会产生海量的用户评价文本。人工逐条区分好评 / 差评、挖掘用户痛点效率极低，而通过 NLP + 机器学习技术实现评价情感倾向自动分类，可以帮助商家快速定位产品问题、优化服务体验，也能为平台运营提供数据支撑。

本文将从 0 到 1 完整实现一套中文评价情感分析系统：从原始文本数据预处理、中文分词、停用词过滤，到词向量转换、朴素贝叶斯模型训练，再到解决数据不平衡问题、最终实现用户输入任意评价自动判断好评 / 差评，全程附带代码解析、踩坑记录和真实运行效果，新手也能直接复现。

一、项目整体效果与技术选型

1. 最终实现效果

支持本地优质评价 / 差评文本批量训练模型
自动完成中文文本分词、停用词过滤、词向量转换全流程
针对评价数据常见的类别不平衡问题，通过 SMOTE 过采样优化模型效果
提供交互式输入功能：输入任意评价文本，实时输出「优质评价」/「差评」的判断结果
完整的模型评估报告，精准查看模型在训练集 / 测试集的分类效果

2. 核心技术栈

工具 / 库	核心用途
jieba	中文文本分词，解决中文无天然分词符的核心问题
pandas	文本数据读取、结构化处理与数据集整合
scikit-learn	数据集切分、词向量转换、朴素贝叶斯模型构建、分类效果评估
imblearn(SMOTE)	过采样处理，解决好评 / 差评样本数量严重不平衡的问题
MultinomialNB	多项式朴素贝叶斯模型，专为文本分类这类离散特征场景优化

3. 环境准备

执行以下命令一键安装所有依赖：

pip install pandas jieba scikit-learn imbalanced-learn

二、数据准备与文本预处理

1. 数据源说明

本文使用 3 个核心数据文件，和代码放在同一目录下即可：

优质评价.txt：每行一条用户好评文本，作为正样本
差评.txt：每行一条用户差评文本，作为负样本
stopword.txt：中文停用词表，包含「的、了、啊、吧」等无情感意义的语气词、连接词，用于过滤噪声

2. 文本读取与中文分词

中文和英文最大的区别是没有天然的空格分隔词，因此第一步必须用分词工具将句子拆分为独立的词语。这里选用最主流的 jieba 分词库，使用精确模式 lcut 完成分词。

import pandas as pd 
import jieba 
# 读取评价文件
cp_content = open(r'差评.txt', encoding='utf-8') 
yz_content = open(r'优质评价.txt', encoding='utf-8') 
# 对差评文本逐行分词
cp_sum = [] 
for line  cp_content: 
    result = jieba.lcut(line) 
    
     (result) > : 
        cp_sum.append(result) 

yz_sum = [] 
 line  yz_content: 
    yo = jieba.lcut(line) 
     (yo) > : 
        yz_sum.append(yo) 

cp_content.close() 
yz_content.close()

import pandas as pd import jieba # 读取评价文件 cp_content = open(r'差评.txt', encoding='utf-8') yz_content = open(r'优质评价.txt', encoding='utf-8') # 对差评分词 cp_sum = [] for line in cp_content: result = jieba.lcut(line) if len(result) > 1: cp_sum.append(result) cp_fc_results = pd.DataFrame({'chaping': cp_sum}) # 对优质评价分词 yz_sum = [] for line in yz_content: yo = jieba.lcut(line) if len(yo) > 1: yz_sum.append(yo) yz_fc_results = pd.DataFrame({'content': yz_sum}) # 导入停用词（关键修正：读取后转为列表） stopwords = pd.read_csv(r'stopword.txt', encoding='utf-8', engine='python') stopwords_list = stopwords['stopword'].values.tolist() # 提取停用词列表 # 定义去除停用词（关键修正：判断词是否在停用词列表中） def stop(contests, stopwords): seg_clear = [] for contest in contests: line_clear = [] for word in contest: # 过滤停用词 + 过滤长度为 1 的无意义词（可选优化，不影响核心功能） if word in stopwords or len(word) <= 1: continue line_clear.append(word) seg_clear.append(line_clear) return seg_clear # 去除停用词（传入停用词列表） cp_fc_results_clear = stop(cp_sum, stopwords_list) yz_fc_results_clear = stop(yz_sum, stopwords_list) # 关闭文件（原代码遗漏，补充关闭避免资源泄露） cp_content.close() yz_content.close() '''朴素贝叶斯分类''' '''标签分类''' cp_train = pd.DataFrame({'pj':cp_fc_results_clear,'lable':1})#表格数据 yp_train = pd.DataFrame({'pj':yz_fc_results_clear,'lable':0}) pj_train = pd.concat([cp_train,yp_train]) '''数据切分''' from sklearn.model_selection import train_test_split x_train, x_test, y_train, y_test = \ train_test_split(pj_train['pj'].values,pj_train['lable'].values,train_size=0.8,random_state=0) '''将所有词转化为词向量''' words = [] #将转化的词向量为标准格式 for line_index in range(len(x_train)): words.append(' '.join(x_train[line_index])) print(words) #导入词向量转化库 from sklearn.feature_extraction.text import CountVectorizer vec = CountVectorizer(max_features=1700,lowercase=False,ngram_range=(1,3)) #max_features 表示提取词频最高的 1700 个作为词库 #lowercase 表示把所有词转化为小写，False 不需要 vec.fit(words) #传入训练集的所有词 ##fit_transform()2 个功能 1：训练出词库 2：transform 根据词库转化为词向量 x_train_vec = vec.transform(words) # 添加过采样处理（SMOTE） from imblearn.over_sampling import SMOTE # 初始化 SMOTE 过采样器 smote = SMOTE(random_state=42) # 对训练集进行过采样 x_train_smote, y_train_smote = smote.fit_resample(x_train_vec, y_train) """使用贝叶斯""" from sklearn.naive_bayes import MultinomialNB,ComplementNB classifier = MultinomialNB(alpha=1) # 使用过采样后的数据集进行训练 classifier.fit(x_train_smote, y_train_smote) train_pr = classifier.predict(x_train_vec) # 用原始训练集向量预测（对比用） from sklearn import metrics print("训练集分类报告（原始数据预测）：") print(metrics.classification_report(y_train,train_pr)) # 测试集数据分析测试 test_words = [] for line_index in range(len(x_test)): test_words.append(' '.join(x_test[line_index])) test_pr = classifier.predict(vec.transform(test_words)) print("测试集分类报告：") print(metrics.classification_report(y_test,test_pr)) '''用户输入预测部分''' def predict_sentiment(text): # 对输入文本分词 seg = jieba.lcut(text) # 去除停用词和长度为 1 的词 clear_seg = stop([seg], stopwords_list)[0] # 传入列表的列表，取第一个结果 if not clear_seg: # 若处理后无有效词汇 return "无法判断（输入文本过短或无有效词汇）" # 转换为词向量格式 text_vec = vec.transform([' '.join(clear_seg)]) # 预测 pred = classifier.predict(text_vec)[0] return "优质评价（好）" if pred == 0 else "差评（坏）" # 用户交互 if __name__ == "__main__": user_input = input("请输入要判断的评价：") result = predict_sentiment(user_input) print(f"判断结果：{result}")

Python 基于朴素贝叶斯的中文评价情感分析

前言

一、项目整体效果与技术选型

1. 最终实现效果

2. 核心技术栈

3. 环境准备

二、数据准备与文本预处理

1. 数据源说明

2. 文本读取与中文分词

更多推荐文章

相关免费在线工具

3. 停用词过滤

4. 标签标注与数据集合并

三、数据集切分与词向量转换

1. 训练集 / 测试集切分

2. 文本转词向量（核心步骤）

四、解决核心痛点：类别不平衡问题

五、朴素贝叶斯模型训练与效果评估

1. 模型训练

2. 模型效果评估

真实运行结果展示

六、交互式预测：输入评价自动判断好评 / 差评

七、新手必看踩坑记录

八、完整可运行代码

九、总结与拓展优化方向

更多推荐文章

相关免费在线工具

Python 基于朴素贝叶斯的中文评价情感分析

前言

一、项目整体效果与技术选型

1. 最终实现效果

2. 核心技术栈

3. 环境准备

二、数据准备与文本预处理

1. 数据源说明

2. 文本读取与中文分词

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3. 停用词过滤

4. 标签标注与数据集合并

三、数据集切分与词向量转换

1. 训练集 / 测试集切分

2. 文本转词向量（核心步骤）

四、解决核心痛点：类别不平衡问题

五、朴素贝叶斯模型训练与效果评估

1. 模型训练

2. 模型效果评估

真实运行结果展示

六、交互式预测：输入评价自动判断好评 / 差评

七、新手必看踩坑记录

八、完整可运行代码

九、总结与拓展优化方向

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具