自然语言处理技术与应用实践 | 极客日志

PythonAI算法

自然语言处理技术与应用实践

本章介绍自然语言处理（NLP）的基础概念、文本表示方法及深度学习模型实现。涵盖文本分类、情感分析、命名实体识别等核心任务，展示基于 LSTM 和 BERT 等预训练模型的代码示例。同时探讨机器翻译、文本生成及问答系统的应用场景，并通过产品评论情感分析实战项目演示完整开发流程。最后总结数据预处理、模型优化及部署的最佳实践，介绍 RoBERTa 和小样本学习等前沿技术方向。

花里胡哨发布于 2026/2/6更新于 2026/5/294.4K 浏览

第 12 章自然语言处理技术与应用实践

NLP 示意图

学习目标

掌握自然语言处理（NLP）的基本概念和原理
了解 NLP 的常用任务和应用场景
学会使用深度学习框架实现 NLP 模型
掌握文本分类、情感分析、命名实体识别等任务的实现方法
学习 NLP 技术在实际项目中的应用实践

12.1 自然语言处理技术基础

12.1.1 自然语言处理的概念

自然语言处理（NLP）是计算机科学和人工智能的一个重要领域，研究如何让计算机理解和处理人类语言。

NLP 的主要任务

文本分类：将文本分为不同的类别
情感分析：分析文本的情感倾向
命名实体识别：识别文本中的命名实体（如人名、地名、组织名）
机器翻译：将一种语言的文本翻译成另一种语言
文本生成：生成新的文本
问答系统：根据问题回答相关内容
对话系统：与用户进行自然语言对话

12.1.2 文本表示

计算机无法直接处理文本，需要将文本转换为数字表示。常用的文本表示方法包括：

词袋模型（Bag of Words）：将文本表示为词频向量
TF-IDF：使用词频和逆文档频率加权的词向量
词嵌入（Word Embedding）：将词表示为低维向量，捕捉词之间的语义关系

词袋模型的实现

from sklearn.feature_extraction.text import CountVectorizer

# 定义文本数据
texts = [
    '自然语言处理是计算机科学的一个分支',
    'NLP 研究如何让计算机理解和处理人类语言',
    '文本分类是 NLP 的一个常用任务'
]

# 初始化 CountVectorizer
vectorizer = CountVectorizer()

# 转换文本为词袋模型
X = vectorizer.fit_transform(texts)

# 输出词袋模型的词汇表和向量表示
print('词汇表:', vectorizer.get_feature_names_out())
print('词频向量:\n', X.toarray())

💡 词袋模型简单直观，但无法捕捉词之间的语义关系。

12.1.3 词嵌入

词嵌入是 NLP 中的重要技术，将词表示为低维向量，捕捉词之间的语义关系。常用的词嵌入方法包括 Word2Vec、GloVe 等。

使用预训练词嵌入

 gensim.models  KeyedVectors






embedding_path = 
word_vectors = KeyedVectors.load_word2vec_format(embedding_path, binary=, no_header=)


word = 
 word  word_vectors:
    vector = word_vectors[word]
    ()
:
    ()


similar_words = word_vectors.most_similar(, topn=)
()

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

import tensorflow as tf
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.layers import Embedding, LSTM, Dense, Dropout, Bidirectional
from tensorflow.keras.models import Sequential
import pandas as pd

# 加载数据
data = pd.read_csv('text_classification_data.csv')

# 预处理文本
tokenizer = Tokenizer(num_words=10000)
tokenizer.fit_on_texts(data['text'])
X = tokenizer.texts_to_sequences(data['text'])
X = pad_sequences(X, maxlen=100)
y = data['label']

# 划分训练集和测试集
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 构建 LSTM 分类模型
model = Sequential([
    Embedding(input_dim=10000, output_dim=64, input_length=100),
    Bidirectional(LSTM(64)),
    Dense(64, activation='relu'),
    Dropout(0.5),
    Dense(1, activation='sigmoid')
])

model.compile(
    optimizer='adam',
    loss='binary_crossentropy',
    metrics=['accuracy']
)

# 训练模型
history = model.fit(
    X_train, y_train,
    validation_data=(X_test, y_test),
    epochs=10,
    batch_size=32
)

# 评估模型
test_loss, test_acc = model.evaluate(X_test, y_test)
print(f"Test accuracy: {test_acc}")

from transformers import BertTokenizer, TFBertForSequenceClassification
import tensorflow as tf
import pandas as pd

# 加载数据
data = pd.read_csv('text_classification_data.csv')

# 初始化 BERT 分词器
tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')

# 编码文本
max_length = 100
X_train_encoded = tokenizer(list(data['text']), max_length=max_length, padding=True, truncation=True, return_tensors='tf')

# 划分训练集和测试集
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(
    X_train_encoded['input_ids'], data['label'], test_size=0.2, random_state=42)

# 加载 BERT 模型
model = TFBertForSequenceClassification.from_pretrained('bert-base-chinese', num_labels=2)

# 编译模型
optimizer = tf.keras.optimizers.Adam(learning_rate=2e-5)
loss = tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True)
metric = tf.keras.metrics.SparseCategoricalAccuracy('accuracy')
model.compile(optimizer=optimizer, loss=loss, metrics=[metric])

# 训练模型
history = model.fit(
    X_train, y_train,
    validation_data=(X_test, y_test),
    epochs=3,
    batch_size=8
)

# 评估模型
test_loss, test_acc = model.evaluate(X_test, y_test)
print(f"Test accuracy: {test_acc}")

import tensorflow as tf
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
import pandas as pd

# 加载数据
data = pd.read_csv('sentiment_analysis_data.csv')

# 预处理文本
tokenizer = Tokenizer(num_words=10000)
tokenizer.fit_on_texts(data['text'])
X = tokenizer.texts_to_sequences(data['text'])
X = pad_sequences(X, maxlen=100)
y = data['sentiment']

# 划分训练集和测试集
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 构建情感分析模型
model = tf.keras.Sequential([
    tf.keras.layers.Embedding(input_dim=10000, output_dim=64, input_length=100),
    tf.keras.layers.Bidirectional(tf.keras.layers.LSTM(64)),
    tf.keras.layers.Dense(64, activation='relu'),
    tf.keras.layers.Dropout(0.5),
    tf.keras.layers.Dense(3, activation='softmax')
])

model.compile(
    optimizer='adam',
    loss='sparse_categorical_crossentropy',
    metrics=['accuracy']
)

# 训练模型
history = model.fit(
    X_train, y_train,
    validation_data=(X_test, y_test),
    epochs=10,
    batch_size=32
)

# 评估模型
test_loss, test_acc = model.evaluate(X_test, y_test)
print(f"Test accuracy: {test_acc}")

# 测试模型
new_text = ['这个产品非常好，质量很高', '这个产品质量很差，不值得购买']
new_text_encoded = tokenizer.texts_to_sequences(new_text)
new_text_padded = pad_sequences(new_text_encoded, maxlen=100)
predictions = model.predict(new_text_padded)
sentiments = ['负面', '中性', '正面']
for text, pred in zip(new_text, predictions):
    sentiment = sentiments[pred.argmax()]
    print(f"{text}: {sentiment}")

import tensorflow as tf
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.layers import Embedding, LSTM, Dense, Dropout, Bidirectional, TimeDistributed
from tensorflow.keras.models import Sequential
import pandas as pd

# 加载数据
data = pd.read_csv('ner_data.csv')

# 预处理文本和标签
tokenizer = Tokenizer(num_words=10000)
tokenizer.fit_on_texts(data['text'])
X = tokenizer.texts_to_sequences(data['text'])
X = pad_sequences(X, maxlen=100)
label_tokenizer = Tokenizer()
label_tokenizer.fit_on_texts(data['labels'])
y = label_tokenizer.texts_to_sequences(data['labels'])
y = pad_sequences(y, maxlen=100)
y = tf.keras.utils.to_categorical(y)

# 划分训练集和测试集
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 构建命名实体识别模型
model = Sequential([
    Embedding(input_dim=10000, output_dim=64, input_length=100),
    Bidirectional(LSTM(64, return_sequences=True)),
    TimeDistributed(Dense(64, activation='relu')),
    Dropout(0.5),
    TimeDistributed(Dense(y.shape[-1], activation='softmax'))
])

model.compile(
    optimizer='adam',
    loss='categorical_crossentropy',
    metrics=['accuracy']
)

# 训练模型
history = model.fit(
    X_train, y_train,
    validation_data=(X_test, y_test),
    epochs=10,
    batch_size=32
)

# 评估模型
test_loss, test_acc = model.evaluate(X_test, y_test)
print(f"Test accuracy: {test_acc}")

from transformers import MarianMTModel, MarianTokenizer
import torch

# 加载翻译模型和分词器
model_name = 'Helsinki-NLP/opus-mt-zh-en'
tokenizer = MarianTokenizer.from_pretrained(model_name)
model = MarianMTModel.from_pretrained(model_name)

# 翻译文本
text = '自然语言处理是计算机科学的一个分支'
inputs = tokenizer(text, return_tensors='pt', padding=True, truncation=True)
with torch.no_grad():
    outputs = model.generate(**inputs)
    translation = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(f"原文：{text}")
print(f"译文：{translation}")

from transformers import GPT2LMHeadModel, GPT2Tokenizer
import torch

# 加载 GPT-2 模型和分词器
tokenizer = GPT2Tokenizer.from_pretrained('gpt2')
model = GPT2LMHeadModel.from_pretrained('gpt2')

# 生成文本
prompt = '自然语言处理是计算机科学的一个分支'
inputs = tokenizer(prompt, return_tensors='pt')
with torch.no_grad():
    outputs = model.generate(**inputs, max_length=100, num_return_sequences=1)
    generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(f"生成的文本：{generated_text}")

from transformers import BertTokenizer, TFBertForQuestionAnswering
import tensorflow as tf

# 加载 BERT 问答模型和分词器
tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')
model = TFBertForQuestionAnswering.from_pretrained('bert-base-chinese')

# 定义问题和上下文
question = '什么是自然语言处理？'
context = '自然语言处理是计算机科学的一个分支，研究如何让计算机理解和处理人类语言。'

# 编码输入
inputs = tokenizer(question, context, return_tensors='tf')

# 预测答案位置
with tf.no_grad():
    outputs = model(**inputs)
    start_logits = outputs.start_logits
    end_logits = outputs.end_logits
    # 找到最佳答案位置
    start_index = tf.argmax(start_logits, axis=1)[0]
    end_index = tf.argmax(end_logits, axis=1)[0]
    # 解码答案
    answer = tokenizer.decode(inputs['input_ids'][0][start_index:end_index+1], skip_special_tokens=True)
print(f"问题：{question}")
print(f"答案：{answer}")

import tensorflow as tf
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
import pandas as pd
import joblib

# 加载数据
data = pd.read_csv('product_reviews.csv')

# 预处理文本
tokenizer = Tokenizer(num_words=10000)
tokenizer.fit_on_texts(data['review'])
X = tokenizer.texts_to_sequences(data['review'])
X = pad_sequences(X, maxlen=100)
y = data['sentiment']

# 划分训练集和测试集
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 构建情感分析模型
model = tf.keras.Sequential([
    tf.keras.layers.Embedding(input_dim=10000, output_dim=64, input_length=100),
    tf.keras.layers.Bidirectional(tf.keras.layers.LSTM(64)),
    tf.keras.layers.Dense(64, activation='relu'),
    tf.keras.layers.Dropout(0.5),
    tf.keras.layers.Dense(3, activation='softmax')
])

model.compile(
    optimizer='adam',
    loss='sparse_categorical_crossentropy',
    metrics=['accuracy']
)

# 训练模型
history = model.fit(
    X_train, y_train,
    validation_data=(X_test, y_test),
    epochs=10,
    batch_size=32
)

# 评估模型
test_loss, test_acc = model.evaluate(X_test, y_test)
print(f"Test accuracy: {test_acc}")

# 保存模型和分词器
model.save('product_review_sentiment_analyzer.h5')
joblib.dump(tokenizer, 'tokenizer.pkl')

# 加载模型和分词器
loaded_model = tf.keras.models.load_model('product_review_sentiment_analyzer.h5')
loaded_tokenizer = joblib.load('tokenizer.pkl')

# 测试模型
new_reviews = ['这个产品非常好，质量很高', '这个产品质量很差，不值得购买']
new_reviews_encoded = loaded_tokenizer.texts_to_sequences(new_reviews)
new_reviews_padded = pad_sequences(new_reviews_encoded, maxlen=100)
predictions = loaded_model.predict(new_reviews_padded)
sentiments = ['负面', '中性', '正面']
for review, pred in zip(new_reviews, predictions):
    sentiment = sentiments[pred.argmax()]
    print(f"{review}: {sentiment}")

from transformers import RobertaTokenizer, TFRobertaForSequenceClassification
import tensorflow as tf
import pandas as pd

# 加载数据
data = pd.read_csv('text_classification_data.csv')

# 初始化 RoBERTa 分词器
tokenizer = RobertaTokenizer.from_pretrained('roberta-base')

# 编码文本
max_length = 100
X_train_encoded = tokenizer(list(data['text']), max_length=max_length, padding=True, truncation=True, return_tensors='tf')

# 划分训练集和测试集
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(
    X_train_encoded['input_ids'], data['label'], test_size=0.2, random_state=42)

# 加载 RoBERTa 模型
model = TFRobertaForSequenceClassification.from_pretrained('roberta-base', num_labels=2)

# 编译模型
optimizer = tf.keras.optimizers.Adam(learning_rate=2e-5)
loss = tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True)
metric = tf.keras.metrics.SparseCategoricalAccuracy('accuracy')
model.compile(optimizer=optimizer, loss=loss, metrics=[metric])

# 训练模型
history = model.fit(
    X_train, y_train,
    validation_data=(X_test, y_test),
    epochs=3,
    batch_size=8
)

# 评估模型
test_loss, test_acc = model.evaluate(X_test, y_test)
print(f"Test accuracy: {test_acc}")

from transformers import T5Tokenizer, T5ForConditionalGeneration
import torch

# 加载 T5 模型和分词器
tokenizer = T5Tokenizer.from_pretrained('t5-small')
model = T5ForConditionalGeneration.from_pretrained('t5-small')

# 定义训练数据
train_data = [
    ('The quick brown fox jumps over the lazy dog.', 'Animal'),
    ('Python is a popular programming language.', 'Technology'),
    ('Paris is the capital of France.', 'Geography')
]

# 准备训练数据
train_inputs = []
train_targets = []
for text, label in train_data:
    input_text = f'classify: {text}'
    target_text = label
    train_inputs.append(input_text)
    train_targets.append(target_text)

# 编码训练数据
train_encoded = tokenizer(train_inputs, return_tensors='pt', padding=True, truncation=True)
train_target_encoded = tokenizer(train_targets, return_tensors='pt', padding=True, truncation=True)

# 训练模型
optimizer = torch.optim.Adam(model.parameters(), lr=1e-4)
loss_fn = torch.nn.CrossEntropyLoss()
for epoch in range(10):
    optimizer.zero_grad()
    outputs = model(**train_encoded, labels=train_target_encoded['input_ids'])
    loss = outputs.loss
    loss.backward()
    optimizer.step()
    print(f"Epoch {epoch+1}, Loss: {loss.item()}")

# 测试模型
test_text = 'The sun is shining in the sky.'
input_text = f'classify: {test_text}'
input_encoded = tokenizer(input_text, return_tensors='pt')
with torch.no_grad():
    outputs = model.generate(**input_encoded)
    prediction = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(f"Test text: {test_text}")
print(f"Prediction: {prediction}")

自然语言处理技术与应用实践

第 12 章自然语言处理技术与应用实践

学习目标

12.1 自然语言处理技术基础

12.1.1 自然语言处理的概念

12.1.2 文本表示

12.1.3 词嵌入

更多推荐文章

相关免费在线工具

12.2 文本分类

12.2.1 文本分类的基本原理

12.2.2 文本分类模型实现

12.2.3 使用预训练语言模型

12.3 情感分析

12.3.1 情感分析的基本原理

12.3.2 情感分析模型实现

12.4 命名实体识别

12.4.1 命名实体识别的基本原理

12.4.2 命名实体识别模型实现

12.5 自然语言处理应用场景

12.5.1 机器翻译

12.5.2 文本生成

12.5.3 问答系统

12.6 实战项目：产品评论情感分析系统

12.6.1 项目目标

12.6.2 项目步骤

12.6.3 项目代码

12.7 自然语言处理技术前沿

12.7.1 预训练语言模型

12.7.2 小样本学习

12.8 工程实践最佳实践

12.8.1 数据预处理

12.8.2 模型选择与优化

12.8.3 部署与监控

12.9 总结

更多推荐文章

相关免费在线工具

自然语言处理技术与应用实践

第 12 章 自然语言处理技术与应用实践

学习目标

12.1 自然语言处理技术基础

12.1.1 自然语言处理的概念

12.1.2 文本表示

12.1.3 词嵌入

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

12.2 文本分类

12.2.1 文本分类的基本原理

12.2.2 文本分类模型实现

12.2.3 使用预训练语言模型

12.3 情感分析

12.3.1 情感分析的基本原理

12.3.2 情感分析模型实现

12.4 命名实体识别

12.4.1 命名实体识别的基本原理

12.4.2 命名实体识别模型实现

12.5 自然语言处理应用场景

12.5.1 机器翻译

12.5.2 文本生成

12.5.3 问答系统

12.6 实战项目：产品评论情感分析系统

12.6.1 项目目标

12.6.2 项目步骤

12.6.3 项目代码

12.7 自然语言处理技术前沿

12.7.1 预训练语言模型

12.7.2 小样本学习

12.8 工程实践最佳实践

12.8.1 数据预处理

12.8.2 模型选择与优化

12.8.3 部署与监控

12.9 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

第 12 章自然语言处理技术与应用实践