
环境准备
开始之前,先安装必要的 Python 库。这里涵盖了数据处理、特征工程、文本预处理以及深度学习框架。
pip install numpy pandas scikit-learn nltk spacy transformers torch tensorflow gensim fastapi uvicorn
numpy和pandas:核心数据处理工具scikit-learn:传统机器学习与评估指标nltk和spacy:文本清洗与分词transformers:预训练模型接口torch/tensorflow:深度学习建模fastapi/uvicorn:模型服务化部署

数据准备
我们以 IMDB 电影评论数据集为例,这是一个经典的情感分析任务(二分类)。
import pandas as pd
from sklearn.model_selection import train_test_split
# 读取本地已下载的 CSV 文件
df = pd.read_csv("IMDB Dataset.csv")
# 划分训练集和测试集
train_texts, test_texts, train_labels, test_labels = train_test_split(
df['review'], df['sentiment'], test_size=0.2, random_state=42
)
# 将标签映射为数值 (positive: 1, negative: 0)
train_labels = train_labels.map({'positive': 1, 'negative': 0})
test_labels = test_labels.map({'positive': 1, 'negative': })


