情感分类实战：传统方法与生成式大模型对比 | 极客日志

PythonAI算法

情感分类实战：传统方法与生成式大模型对比

综述由AI生成详细探讨了五种情感分类方法在 Flipkart 客户评论数据集上的应用与对比。内容涵盖从传统的 TF-IDF 结合逻辑回归，到利用预训练嵌入（如 MiniLM）的特征提取，再到无需标记数据的零样本分类，以及基于 Flan-T5 的生成模型和特定任务微调模型。文章提供了完整的数据预处理、模型训练及评估代码，分析了各方法在准确率、计算效率和数据需求方面的权衡。结果显示，预训练嵌入方法在速度与精度间取得了良好平衡，而任务特定模型在精度上表现最优，为零样本场景提供了可行方案。

beaabea发布于 2025/2/7更新于 2026/6/321 浏览

5 种文本分类的方法（即使没有训练数据）

介绍

本文重点讨论来自 Flipkart 客户评论数据集的产品评论情感分析。

情感分析是自然语言处理（NLP）中的一项关键任务，旨在将文本分类为积极、消极或中性情感。它使企业能够从客户反馈中获得洞察。

我们的目标是探索和比较多种二元情感分类方法，评估它们的性能和计算效率。

这些方法从传统方法到利用嵌入和生成模型的先进技术不等。

一些方法需要标记数据，而有些方法则完全不需要。

目标

1. 数据集分析与预处理

探索 Flipkart 客户评价数据集并对其进行预处理，以创建二元分类任务。
关注明确的情感极性（积极和消极），排除中性评价。

2. 方法探索

尝试多种文本分类方法，包括：
- a) 使用 TF-IDF 的逻辑回归
- b) 使用 预训练嵌入 的逻辑回归
使用嵌入和余弦相似度的 零样本分类。
生成语言模型（例如，Flan-T5）。
针对评论分类微调的 特定任务情感模型。

3. 性能评估

使用标准分类指标评估模型，如 precision、recall、F1-score 和 accuracy。
分析性能与计算效率之间的权衡。

为什么情感分析？

情感分析使企业能够：

理解客户的意见和偏好。
识别产品反馈中的趋势和问题。
增强产品改进和客户满意度的决策能力。

该项目利用广泛的自然语言处理技术，展示如何将各种方法应用于情感分析，每种方法都针对特定的用例和资源限制进行调整。

方法概述

1. 使用 TF-IDF 的逻辑回归

一种简单而有效的基线，使用基于词频的特征进行分类。

2. 带有预训练嵌入的逻辑回归

利用高级嵌入模型，如 all-MiniLM-L6-v2，生成用于训练分类器的语义表示。

3. 零样本分类

通过利用文档和标签嵌入之间的余弦相似度，执行无需标记数据的分类。

4. 生成模型

探索生成语言模型，如 Flan-T5，它通过根据提示生成响应来对文本进行分类。

5. 任务特定情感模型

利用微调的情感模型，如 juliensimon/reviews-sentiment-analysis，以实现领域特定的性能。

环境准备

在开始之前，请确保已安装所有必要的依赖项。

# 安装所需包
!pip install datasets transformers sentence-transformers pandas scikit-learn tqdm

导入必要的库：

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

import pandas as pd
import numpy as np
from tqdm import tqdm

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report

data = pd.read_csv('data.csv')
data = data[data["rating"]!=3]
data["label"] = data["rating"].apply(lambda x: 1 if x >= 4 else 0)

print(data["label"].value_counts())

### Down-sample the positive class and combine with the negative class
data = pd.concat([
    data[data["label"] == 1].sample(n=len(data[data["label"] == 0]), 
    random_state=1),
    data[data["label"] == 0]
])

### Shuffle the resulting dataset
data = data.sample(frac=1, random_state=1).reset_index(drop=True)

train = data[:int(0.8*len(data))]
test = data[int(0.8*len(data)):].reset_index(drop=True)

### Features and labels
X_train = train['review']
y_train = train['label']
X_test = test['review']
y_test = test['label']

### Convert text data into numerical features using TfidfVectorizer
tfidf_vectorizer = TfidfVectorizer()
X_train_tfidf = tfidf_vectorizer.fit_transform(X_train)
X_test_tfidf = tfidf_vectorizer.transform(X_test)

### Logistic Regression Model
model = LogisticRegression(random_state=1)
model.fit(X_train_tfidf, y_train)

### Predictions
y_pred = model.predict(X_test_tfidf)

### Classification Report
print("Classification Report:")
print(classification_report(y_test, y_pred))

from sentence_transformers import SentenceTransformer

### Load model
model = SentenceTransformer('sentence-transformers/all-mpnet-base-v2')

### Convert text to embeddings
train_embeddings = model.encode(train['review'], show_progress_bar=True)
test_embeddings = model.encode(test['review'], show_progress_bar=True)

### Logistic Regression Model
clf = LogisticRegression(random_state=1)
clf.fit(train_embeddings, y_train)

### Predictions
y_pred = clf.predict(test_embeddings)

### Classification Report
print("Classification Report (MPNet):")
print(classification_report(y_test, y_pred))

### Load model
model = SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2')

### Convert text to embeddings
train_embeddings = model.encode(train['review'], show_progress_bar=True)
test_embeddings = model.encode(test['review'], show_progress_bar=True)

### Logistic Regression Model
clf = LogisticRegression(random_state=1)
clf.fit(train_embeddings, y_train)

### Predictions
y_pred = clf.predict(test_embeddings)

### Classification Report
print("Classification Report (MiniLM):")
print(classification_report(y_test, y_pred))

### Step 1: Create embeddings for the label and test data

### Load model
model = SentenceTransformer('sentence-transformers/all-mpnet-base-v2')

label_descriptions = ["A negative review", "A positive review"]
label_embeddings = model.encode(label_descriptions)

test_embeddings = model.encode(test['review'], show_progress_bar=True)

### Step 2: Calculate cosine similarity between document and label embeddings
from sklearn.metrics.pairwise import cosine_similarity

similarity_matrix = cosine_similarity(test_embeddings, label_embeddings)

### Assign the label with the highest similarity score to each document
y_pred = np.argmax(similarity_matrix, axis=1)

### Step 3: Evaluate the model's performance
print("Classification Report (Zero-Shot):")
print(classification_report(y_test, y_pred))

模型选择：
- 使用 Flan-T5 模型，这是一个序列到序列（编码器 - 解码器）生成模型，通过 text2text-generation 任务加载。
- 从最小的模型 flan-t5-small 开始，以便更快地进行实验，并根据需要扩展到更大的版本（例如，base、large、xl、xxl）。
提示工程：
- 使用提示指导模型以为任务提供上下文，例如：
```
Is the following review positive or negative?
```
- 每个输入文档前都加上这个提示，以确保模型理解分类任务。
数据准备：更新数据集以包括前缀文本：
- 将提示和文本映射到一个新特征，例如 "t5"。
- 这为生成分类管道准备了数据集。
推断：
- 在测试数据集上使用管道运行 Flan-T5 模型。
- 收集生成的输出（例如，"positive" 或 "negative"），并将其转换为数值标签（例如，正面为 1，负面为 0）。
评估：
- 使用标准指标（如 F1-score、精确度和召回率）评估模型性能。
- 将文本输出映射到数值，以便与真实值进行比较。

from datasets import Dataset
from transformers import pipeline
from transformers.pipelines.pt_utils import KeyDataset

### Add a prompt column
prompt = "Is the following review positive or negative? "
test['t5'] = prompt + test['review']

### Convert pandas DataFrame to datasets.Dataset for compatibility with Hugging Face pipeline
dataset = Dataset.from_pandas(test)

### Load model
pipe = pipeline(
    task="text2text-generation",
    model="google/flan-t5-small",
    device=0  # Set to -1 for CPU, 0 for GPU
)

### Run inference on the test set
y_pred = []
for output in tqdm(pipe(KeyDataset(dataset, key="t5"))):
    generated_text = output[0]["generated_text"]
    # Map textual output to numerical labels
    y_pred.append(0 if generated_text == "negative" else 1)

print("Classification Report (Flan-T5):")
print(classification_report(y_test, y_pred))

model_path = "juliensimon/reviews-sentiment-analysis"

### Load model into pipeline
pipe = pipeline(
    model=model_path,
    tokenizer=model_path,
    device=0
)

### Run inference on the test set
y_pred = []
for output in tqdm(pipe(KeyDataset(dataset, key="review"))):
    label = output["label"]
    # Map textual output to numerical labels
    y_pred.append(0 if "0" in label else 1)

print("Classification Report (Task-Specific):")
print(classification_report(y_test, y_pred))

方法	准确率	训练时间	推理速度	数据需求
TF-IDF + LR	~0.80	极快	极快	有标签
Embedding + LR	~0.86	中等	快	有标签
Zero-Shot	~0.78	无	中等	无标签
Flan-T5	~0.85	慢	慢	有标签/无标签
Task-Specific	~0.90+	无	快	有标签

情感分类实战：传统方法与生成式大模型对比

5 种文本分类的方法（即使没有训练数据）

介绍

目标

1. 数据集分析与预处理

2. 方法探索

3. 性能评估

为什么情感分析？

方法概述

1. 使用 TF-IDF 的逻辑回归

2. 带有预训练嵌入的逻辑回归

3. 零样本分类

4. 生成模型

5. 任务特定情感模型

环境准备

更多推荐文章

相关免费在线工具

数据集概述

标签创建

平衡数据集

数据划分

文本分类实验

1. 使用 tf-idf 的逻辑回归

为什么要从逻辑回归和 TF-IDF 开始？

2. 使用嵌入作为特征的逻辑回归

步骤：

这种方法的好处：

为什么使用 all-MiniLM-L6-v2？

3. 零样本分类与嵌入

关键步骤：

零样本分类的优势：

4. 使用生成模型进行分类

关键步骤：

为什么使用 Flan-T5？

5. 使用任务特定模型进行情感分析

关键步骤：

结果对比与分析

结论与建议

更多推荐文章

相关免费在线工具

情感分类实战：传统方法与生成式大模型对比

5 种文本分类的方法（即使没有训练数据）

介绍

目标

1. 数据集分析与预处理

2. 方法探索

3. 性能评估

为什么情感分析？

方法概述

1. 使用 TF-IDF 的逻辑回归

2. 带有预训练嵌入的逻辑回归

3. 零样本分类

4. 生成模型

5. 任务特定情感模型

环境准备

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

数据集概述

标签创建

平衡数据集

数据划分

文本分类实验

1. 使用 tf-idf 的逻辑回归

为什么要从逻辑回归和 TF-IDF 开始？

2. 使用嵌入作为特征的逻辑回归

步骤：

这种方法的好处：

为什么使用 all-MiniLM-L6-v2？

3. 零样本分类与嵌入

关键步骤：

零样本分类的优势：

4. 使用生成模型进行分类

关键步骤：

为什么使用 Flan-T5？

5. 使用任务特定模型进行情感分析

关键步骤：

结果对比与分析

结论与建议

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具