NLP 文本特征处理：n-gram 特征与长度规范详解 | 极客日志

PythonAI算法

NLP 文本特征处理：n-gram 特征与长度规范详解

NLP 文本特征处理包含特征生成与规范化。n-gram 特征提取相邻词组以增强上下文理解，常用于分类与情感分析。文本长度规范通过截断与补齐操作统一输入维度，适配深度学习模型要求。文中提供 Python 与 PyTorch 代码示例，展示 n-gram 提取及序列填充的具体实现方法，有助于提升模型训练效率与性能。

墨染流年发布于 2025/2/7更新于 2026/7/2243 浏览

一、文本特征处理的作用

1.1 文本特征处理的核心意义

文本特征处理是自然语言处理（NLP）工作流程中的关键环节，主要目的是提取和规范化文本数据中的重要特征，从而更好地支持后续模型的训练与评估。其核心意义体现在以下几个方面：

提升模型对语义的理解能力：通过特征工程（如 n-gram 特征的加入），可以捕捉文本中词汇或字符之间的重要关联。
提高模型训练的效率与稳定性：通过规范化文本长度，确保模型输入的一致性，减少噪声对模型的干扰。
优化模型评估指标：高质量的文本特征可以使模型在分类、预测等任务中的性能表现更优。

1.2 常见的文本特征处理方法

文本特征处理方法主要可以分为两大类：

特征生成：
- 通过生成新的文本特征（如 n-gram 特征）来增强模型的特征空间，捕捉更丰富的上下文信息。
特征规范化：
- 通过规范文本的长度、格式等，确保数据输入的一致性。

具体方法包括：

添加 n-gram 特征：提取文本中相邻的词或字对信息（例如 bi-gram 和 tri-gram）。
文本长度规范：对文本进行截断或补齐，保证输入的固定长度。

二、添加 n-gram 特征

2.1 什么是 n-gram 特征

2.1.1 基本概念

n-gram 是描述文本中相邻词汇或字符共现关系的特征。具体来说，n-gram 将给定的文本序列按照连续 n 个词（或字）组合生成子序列，形成特征空间。常见的 n-gram 特征包括：

bi-gram（n=2）：相邻两个词（或字）的组合。
tri-gram（n=3）：相邻三个词（或字）的组合。

n-gram 特征的作用在于补充了单一词汇的上下文信息，从而帮助模型更好地理解文本语义。

2.1.2 示例解析

假设我们有一段分词后的文本：

["喜欢", "学习", "NLP"]

若提取 bi-gram 特征，则生成的结果为：

'喜欢学习'
'学习 NLP'

若进一步映射为数值特征，可以假设：

"喜欢学习"的特征值为 100
"学习 NLP"的特征值为 101

那么，最终特征序列为：

["喜欢", "学习", "NLP", 100, 101]

通过添加 n-gram 特征，模型能够更好地捕捉到'词对'的关联，而不仅仅依赖单个词。

2.2 提取 n-gram 特征的实现

2.2.1 n-gram 特征提取函数

以下是一个通用的 n-gram 特征提取函数，支持指定 n 的大小。

def create_ngram_set(input_list, n):
    """
    从数值列表中提取所有的 n-gram 特征
    :param input_list: 输入的数值列表
    :param n: n-gram 的长度
    :return: n-gram 特征组成的集合
    """
     ((*[input_list[i:]  i  (n)]))


input_list = [, , , , ]
n =   
result = create_ngram_set(input_list, n)
(result)

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

{(1, 2), (2, 3), (3, 4), (4, 5)}

import torch
from torch.nn.utils.rnn import pad_sequence

def pad_text_sequences(sequences, maxlen, padding_value=0):
    """
    对输入文本序列进行长度规范化
    :param sequences: 文本序列的列表，形如 [[1, 2, 3], [4, 5]]
    :param maxlen: 规范化的最大长度
    :param padding_value: 补齐时的填充值
    :return: 规范化后的文本序列
    """
    # 将所有序列转为张量，并截断或补齐到指定长度
    padded_sequences = []
    for seq in sequences:
        seq = torch.tensor(seq[:maxlen])  # 截断超长文本
        if len(seq) < maxlen:
            seq = torch.cat([seq, torch.tensor([padding_value] * (maxlen - len(seq)))])  # 补齐不足文本
        padded_sequences.append(seq)
    return torch.stack(padded_sequences)

# 示例调用
sequences = [[1, 2, 3, 4, 5, 6], [7, 8, 9]]
maxlen = 5
result = pad_text_sequences(sequences, maxlen)
print(result)

tensor([[1, 2, 3, 4, 5],
        [7, 8, 9, 0, 0]])

def pad_text_sequences_with_pad_sequence(sequences, maxlen, padding_value=0):
    """
    使用 torch.nn.utils.rnn.pad_sequence 实现长度规范化
    :param sequences: 文本序列的列表，形如 [[1, 2, 3], [4, 5]]
    :param maxlen: 规范化的最大长度
    :param padding_value: 补齐时的填充值
    :return: 规范化后的文本序列
    """
    tensors = [torch.tensor(seq[:maxlen]) for seq in sequences]  # 截断超长文本
    padded_tensors = pad_sequence(tensors, batch_first=True, padding_value=padding_value)
    return padded_tensors[:, :maxlen]  # 确保补齐后形状与 maxlen 一致

# 示例调用
sequences = [[1, 2, 3, 4, 5, 6], [7, 8, 9]]
maxlen = 5
result = pad_text_sequences_with_pad_sequence(sequences, maxlen)
print(result)

tensor([[1, 2, 3, 4, 5],
        [7, 8, 9, 0, 0]])

NLP 文本特征处理：n-gram 特征与长度规范详解

一、文本特征处理的作用

1.1 文本特征处理的核心意义

1.2 常见的文本特征处理方法

二、添加 n-gram 特征

2.1 什么是 n-gram 特征

2.1.1 基本概念

2.1.2 示例解析

2.2 提取 n-gram 特征的实现

2.2.1 n-gram 特征提取函数

更多推荐文章

相关免费在线工具

2.2.2 示例输出

2.3 应用场景

2.3.1 优势

2.3.2 局限性

三、文本长度规范的概念与实现

3.1 文本长度规范的作用

3.1.1 基本概念

3.1.2 作用与意义

3.2 文本长度规范的实现

3.2.1 实现方法

（1）示例代码

（2）示例输出

3.2.2 PyTorch 代码解析

3.2.3 使用 `pad_sequence` 简化实现

输出结果

3.2.4 PyTorch 实现的优势

3.2.5 应用场景

四、小结

更多推荐文章

相关免费在线工具

NLP 文本特征处理：n-gram 特征与长度规范详解

一、文本特征处理的作用

1.1 文本特征处理的核心意义

1.2 常见的文本特征处理方法

二、添加 n-gram 特征

2.1 什么是 n-gram 特征

2.1.1 基本概念

2.1.2 示例解析

2.2 提取 n-gram 特征的实现

2.2.1 n-gram 特征提取函数

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.2.2 示例输出

2.3 应用场景

2.3.1 优势

2.3.2 局限性

三、文本长度规范的概念与实现

3.1 文本长度规范的作用

3.1.1 基本概念

3.1.2 作用与意义

3.2 文本长度规范的实现

3.2.1 实现方法

（1）示例代码

（2）示例输出

3.2.2 PyTorch 代码解析

3.2.3 使用 pad_sequence 简化实现

输出结果

3.2.4 PyTorch 实现的优势

3.2.5 应用场景

四、小结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.2.3 使用 `pad_sequence` 简化实现