Python 构建 NLP 模型实战：从预处理到部署 | 极客日志

PythonAI算法

Python 构建 NLP 模型实战：从预处理到部署

综述由AI生成Python 自然语言处理模型实现涵盖了环境配置、数据清洗、特征提取及多种模型训练方案。流程包括利用 Pandas 处理 IMDB 数据集，通过 NLTK 进行文本去噪与分词，采用 TF-IDF 或 Word2Vec 提取特征。模型方面对比了逻辑回归、LSTM 深度学习网络及 BERT 预训练模型的性能差异。最后展示了如何使用 FastAPI 将训练好的模型部署为 Web 服务，为实际开发提供了一套可落地的技术参考路径。

王者发布于 2026/3/27更新于 2026/6/1119 浏览

在这里插入图片描述

环境准备

开始之前，先安装必要的 Python 库。这里涵盖了数据处理、特征工程、文本预处理以及深度学习框架。

pip install numpy pandas scikit-learn nltk spacy transformers torch tensorflow gensim fastapi uvicorn

numpy 和 pandas：核心数据处理工具
scikit-learn：传统机器学习与评估指标
nltk 和 spacy：文本清洗与分词
transformers：预训练模型接口
torch / tensorflow：深度学习建模
fastapi / uvicorn：模型服务化部署

在这里插入图片描述

数据准备

我们以 IMDB 电影评论数据集为例，这是一个经典的情感分析任务（二分类）。

import pandas as pd
from sklearn.model_selection import train_test_split

# 读取本地已下载的 CSV 文件
df = pd.read_csv("IMDB Dataset.csv")

# 划分训练集和测试集
train_texts, test_texts, train_labels, test_labels = train_test_split(
    df['review'], df['sentiment'], test_size=0.2, random_state=42
)

# 将标签映射为数值 (positive: 1, negative: 0)
train_labels = train_labels.map({'positive': 1, 'negative': 0})
test_labels = test_labels.map({'positive': 1, : })

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

import re
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

# 下载必要的 NLTK 资源
nltk.download('stopwords')
nltk.download('punkt')

def clean_text(text):
    # 移除 HTML 标签
    text = re.sub(r'<.*?>', '', text)
    # 只保留字母并转小写
    text = re.sub(r'[^a-zA-Z]', ' ', text).lower()
    # 分词
    tokens = word_tokenize(text)
    # 去除停用词
    tokens = [word for word in tokens if word not in stopwords.words('english')]
    return ' '.join(tokens)

# 应用处理
train_texts = train_texts.apply(clean_text)
test_texts = test_texts.apply(clean_text)

from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer(max_features=5000)
X_train = vectorizer.fit_transform(train_texts)
X_test = vectorizer.transform(test_texts)

from gensim.models import Word2Vec

# 将文本按空格分割成句子列表
sentences = [text.split() for text in train_texts]
word2vec_model = Word2Vec(sentences, vector_size=100, window=5, min_count=5, workers=4)
word2vec_model.save("word2vec.model")

from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

model = LogisticRegression()
model.fit(X_train, train_labels)

preds = model.predict(X_test)
print(f"Logistic Regression Accuracy: {accuracy_score(test_labels, preds)}")

import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader, TensorDataset

# 定义 LSTM 模型结构
class LSTMModel(nn.Module):
    def __init__(self, vocab_size, embedding_dim, hidden_dim, output_dim):
        super(LSTMModel, self).__init__()
        self.embedding = nn.Embedding(vocab_size, embedding_dim)
        self.lstm = nn.LSTM(embedding_dim, hidden_dim, batch_first=True)
        self.fc = nn.Linear(hidden_dim, output_dim)

    def forward(self, x):
        embedded = self.embedding(x)
        _, (hidden, _) = self.lstm(embedded)
        return self.fc(hidden.squeeze(0))

# 超参数设置
VOCAB_SIZE = 5000
EMBEDDING_DIM = 100
HIDDEN_DIM = 128
OUTPUT_DIM = 1

model = LSTMModel(VOCAB_SIZE, EMBEDDING_DIM, HIDDEN_DIM, OUTPUT_DIM)

# 模拟数据加载（实际项目中需将文本转为索引）
# 此处演示训练循环结构
criterion = nn.BCEWithLogitsLoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)

# 假设已有编码后的数据 tensor_data 和 labels_tensor
# 实际使用时请替换为真实的 Tokenized 数据
for epoch in range(5):
    model.train()
    optimizer.zero_grad()
    # 注意：实际训练中应传入真实编码后的批次数据
    # outputs = model(batch_input) 
    # loss = criterion(outputs.squeeze(), batch_labels.float())
    # loss.backward()
    # optimizer.step()
    print(f"Epoch {epoch+1}, Training Loop Ready")

from transformers import BertTokenizer, BertForSequenceClassification
from torch.utils.data import DataLoader

tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertForSequenceClassification.from_pretrained('bert-base-uncased')

# Tokenize 数据
train_encodings = tokenizer(list(train_texts), truncation=True, padding=True, max_length=512, return_tensors="pt")
test_encodings = tokenizer(list(test_texts), truncation=True, padding=True, max_length=512, return_tensors="pt")

# 转换为 PyTorch Dataset
class IMDbDataset(torch.utils.data.Dataset):
    def __init__(self, encodings, labels):
        self.encodings = encodings
        self.labels = labels

    def __len__():
        return len(self.labels)

    def __getitem__(self, idx):
        item = {key: val[idx] for key, val in self.encodings.items()}
        item["labels"] = torch.tensor(self.labels[idx])
        return item

train_dataset = IMDbDataset(train_encodings, list(train_labels))
test_dataset = IMDbDataset(test_encodings, list(test_labels))

# 训练 BERT
train_loader = DataLoader(train_dataset, batch_size=8, shuffle=True)
optimizer = torch.optim.AdamW(model.parameters(), lr=5e-5)

model.train()
for epoch in range(3):
    for batch in train_loader:
        optimizer.zero_grad()
        outputs = model(**batch)
        loss = outputs.loss
        loss.backward()
        optimizer.step()
    print(f"Epoch {epoch+1}, Loss: {loss.item()}")

from sklearn.metrics import classification_report

model.eval()
preds = []
with torch.no_grad():
    for batch in test_dataset:
        output = model(**batch)
        preds.append(torch.argmax(output.logits, axis=1).numpy())

print(classification_report(test_labels, preds))

from fastapi import FastAPI
import torch

app = FastAPI()

@app.post("/predict/")
def predict(text: str):
    encoding = tokenizer(text, return_tensors="pt", truncation=True, padding=True, max_length=512)
    with torch.no_grad():
        output = model(**encoding)
        pred = torch.argmax(output.logits, axis=1).item()
    return {"sentiment": "positive" if pred == 1 else "negative"}

uvicorn main:app --reload

Python 构建 NLP 模型实战：从预处理到部署

环境准备

数据准备

更多推荐文章

相关免费在线工具

文本预处理

特征工程

TF-IDF

Word2Vec

搭建 NLP 模型

逻辑回归

LSTM 深度学习模型

使用预训练的 BERT 模型

模型评估

部署模型

总结

更多推荐文章

相关免费在线工具

Python 构建 NLP 模型实战：从预处理到部署

环境准备

数据准备

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

文本预处理

特征工程

TF-IDF

Word2Vec

搭建 NLP 模型

逻辑回归

LSTM 深度学习模型

使用预训练的 BERT 模型

模型评估

部署模型

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具