Python 微博文本情感分析：基于词典、LSTM 与 SVM | 极客日志

PythonAI算法

Python 微博文本情感分析：基于词典、LSTM 与 SVM

介绍使用 Python 进行微博文本情感分析的三种方法。首先通过情感词典统计正负面词频判断倾向；其次利用 LSTM 长短期记忆网络处理序列数据，构建深度学习模型；最后采用支持向量机（SVM）结合 TF-IDF 特征提取进行分类。文章提供了数据预处理、分词、模型构建及训练评估的完整代码示例，帮助开发者理解不同算法在情感分析任务中的应用场景与实现细节。

DebugKing发布于 2026/3/28更新于 2026/7/2144 浏览

Python 微博文本情感分析：基于词典、LSTM 与 SVM

引言

在大数据时代，社交媒体数据蕴含着丰富的信息，微博作为热门社交平台，其文本内容能反映大众的情感倾向。本文介绍如何用 Python 进行微博文本情感分析，涉及基于情感词典、LSTM 算法和支持向量机（SVM）。

数据集

做分析，数据集是关键。可以从公开渠道获取微博文本数据，或者通过合法的爬虫程序采集。采集来的数据需要进行预处理，像去除无关的 HTML 标签、特殊字符，以及进行分词处理。

假设我们已经有了一份预处理好的数据集，它可能长这样（以 CSV 文件为例）：

微博文本	情感标签（0 为负面，1 为正面）
'今天心情超级棒，阳光正好！'	1
'这也太糟糕了，诸事不顺。'	0

基于情感词典的分析

情感词典是一系列带有情感倾向的词语集合。中文里像知网情感词典就很常用。

我们可以用 Python 的 jieba 分词库结合情感词典来做情感分析。下面是简单代码示例：

import jieba

# 假设我们有一个正面情感词典文件 positive.txt 和负面情感词典文件 negative.txt
positive_words = []
negative_words = []
with open('positive.txt', 'r', encoding='utf-8') as f:
    for line in f.readlines():
        positive_words.append(line.strip())
with open('negative.txt', 'r', encoding='utf-8') as f:
    for line in f.readlines():
        negative_words.append(line.strip())

def sentiment_analysis_by_dict(text):
    words = jieba.lcut(text)
    positive_count = 0
    negative_count = 0
    for word in words:
        if word in positive_words:
            positive_count += 1
        elif word  negative_words:
            negative_count += 
     positive_count > negative_count:
         
     positive_count < negative_count:
         
    :
         -

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

from keras.preprocessing.text import Tokenizer
from keras.preprocessing.sequence import pad_sequences
import numpy as np

# 假设 texts 是微博文本列表，labels 是对应的情感标签列表
maxlen = 100 # 设定文本最大长度
tokenizer = Tokenizer(num_words=1000)
tokenizer.fit_on_texts(texts)
sequences = tokenizer.texts_to_sequences(texts)
data = pad_sequences(sequences, maxlen=maxlen)
labels = np.asarray(labels)

from keras.models import Sequential
from keras.layers import Embedding, LSTM, Dense

model = Sequential()
model.add(Embedding(1000, 128, input_length=maxlen))
model.add(LSTM(128))
model.add(Dense(1, activation='sigmoid'))
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
model.fit(data, labels, epochs=10, batch_size=32)

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split

vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(texts)
y = labels
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

svm = SVC(kernel='linear')
svm.fit(X_train, y_train)
accuracy = svm.score(X_test, y_test)
print(f"SVM 模型准确率：{accuracy}")

Python 微博文本情感分析：基于词典、LSTM 与 SVM

Python 微博文本情感分析：基于词典、LSTM 与 SVM

引言

数据集

基于情感词典的分析

更多推荐文章

相关免费在线工具

基于机器学习 - LSTM 算法

基于支持向量机（SVM）

更多推荐文章

相关免费在线工具

Python 微博文本情感分析：基于词典、LSTM 与 SVM

Python 微博文本情感分析：基于词典、LSTM 与 SVM

引言

数据集

基于情感词典的分析

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

基于机器学习 - LSTM 算法

基于支持向量机（SVM）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具