预训练语言模型与 BERT 实战应用

预训练语言模型与 BERT 实战应用 | 极客日志

import tensorflow as tf
from transformers import BertConfig, BertModel

# 加载 BERT-Base 配置
config = BertConfig.from_pretrained('bert-base-uncased')
# 初始化 BERT 模型
bert_model = BertModel.from_pretrained('bert-base-uncased')

# 模拟输入：batch_size=2，sequence_length=10
input_ids = tf.random.randint(0, config.vocab_size, (2, 10))
attention_mask = tf.ones((2, 10))  # 1 表示有效 token，0 表示填充 token
token_type_ids = tf.zeros((2, 10))  # 0 表示第一个句子，1 表示第二个句子

# 获取 BERT 输出
outputs = bert_model(input_ids=input_ids, attention_mask=attention_mask, token_type_ids=token_type_ids)
last_hidden_state = outputs.last_hidden_state  # 最后一层隐藏状态，shape=(2,10,768)
pooler_output = outputs.pooler_output  # 特殊 token [CLS] 的输出，shape=(2,768)

print("最后一层隐藏状态形状：", last_hidden_state.shape)
print("CLS token 输出形状：", pooler_output.shape)

pip install transformers datasets tensorflow

from datasets import load_dataset
from transformers import BertTokenizerFast

# 加载数据集（这里使用本地的 THUCNews 子集，也可以使用 Hugging Face Hub 上的公开数据集）
dataset = load_dataset('csv', data_files={
    'train': 'thucnews_train.csv',
    'val': 'thucnews_val.csv',
    'test': 'thucnews_test.csv'
})

# 加载中文 BERT 分词器
tokenizer = BertTokenizerFast.from_pretrained('bert-base-chinese')

# 定义文本预处理函数
def preprocess_function(examples):
    # 对文本进行分词、转换为 token id、填充和截断
    return tokenizer(
        examples['text'],
        max_length=128,
        padding='max_length',
        truncation=True
    )

# 对数据集进行预处理
tokenized_dataset = dataset.map(preprocess_function, batched=True)

# 重命名标签列，适配模型输入
tokenized_dataset = tokenized_dataset.rename_column('label', 'labels')

# 设置数据集格式为 TensorFlow 格式
tokenized_dataset.set_format(type='tensorflow', columns=['input_ids', 'attention_mask', 'labels'])

# 生成训练集和验证集的 tf.data.Dataset
batch_size = 32
train_dataset = tokenized_dataset['train'].to_tf_dataset(
    columns=['input_ids', 'attention_mask'],
    label_cols=['labels'],
    batch_size=batch_size,
    shuffle=True
)
val_dataset = tokenized_dataset['val'].to_tf_dataset(
    columns=['input_ids', 'attention_mask'],
    label_cols=['labels'],
    batch_size=batch_size,
    shuffle=False
)

from transformers import TFBertForSequenceClassification

# 加载 BERT 中文预训练模型，指定分类类别数为 10
model = TFBertForSequenceClassification.from_pretrained(
    'bert-base-chinese',
    num_labels=10,
    problem_type='single_label_classification'
)

# 编译模型
model.compile(
    optimizer=tf.keras.optimizers.Adam(learning_rate=2e-5),
    loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True),
    metrics=[tf.keras.metrics.SparseCategoricalAccuracy('accuracy')]
)

# 查看模型结构
model.summary()

from tensorflow.keras.callbacks import ModelCheckpoint, EarlyStopping

# 定义回调函数
callbacks = [
    # 早停：当验证集损失不再下降时停止训练
    EarlyStopping(monitor='val_loss', patience=1, restore_best_weights=True),
    # 保存最佳模型
    ModelCheckpoint('best_bert_thucnews.h5', monitor='val_accuracy', save_best_only=True)
]

# 开始微调模型
history = model.fit(
    train_dataset,
    validation_data=val_dataset,
    epochs=3,
    callbacks=callbacks
)

# 加载测试集
test_dataset = tokenized_dataset['test'].to_tf_dataset(
    columns=['input_ids', 'attention_mask'],
    label_cols=['labels'],
    batch_size=batch_size,
    shuffle=False
)

# 在测试集上评估模型
test_loss, test_acc = model.evaluate(test_dataset)
print(f"测试集损失：{test_loss:.4f}")
print(f"测试集准确率：{test_acc:.4f}")

# 定义预测函数
def predict_text_category(text):
    # 预处理文本
    inputs = tokenizer(
        text,
        max_length=128,
        padding='max_length',
        truncation=True,
        return_tensors='tf'
    )
    # 获取预测结果
    outputs = model(inputs)
    logits = outputs.logits
    # 转换为类别概率
    probabilities = tf.nn.softmax(logits, axis=-1)
    # 获取预测类别
    predicted_label = tf.argmax(probabilities, axis=-1).numpy()[0]
    # 类别映射字典
    label_map = {
        0: '体育', 1: '娱乐', 2: '家居', 3: '房产', 4: '教育',
        5: '时尚', 6: '时政', 7: '游戏', 8: '科技', 9: '财经'
    }
    return label_map[predicted_label]

# 测试预测
test_text = "北京时间 10 月 1 日，2024 年巴黎奥运会男篮决赛在法兰西体育场举行，美国队以 102-87 击败法国队，夺得金牌。"
print(f"文本内容：{test_text}")
print(f"预测类别：{predict_text_category(test_text)}")

预训练语言模型与 BERT 实战应用

预训练语言模型与 BERT 实战应用

学习目标与重点

预训练语言模型的发展历程与核心思想

为什么需要预训练语言模型

预训练 + 微调的核心流程

BERT 模型架构与预训练任务详解

BERT 的核心架构

更多推荐文章

相关免费在线工具

BERT 的预训练任务

Hugging Face Transformers 库快速上手

安装与环境配置

核心组件介绍

实战：基于 BERT 的中文文本分类任务

任务介绍与数据集准备

搭建 BERT 文本分类模型

模型微调与评估

模型预测与推理

BERT 模型的优化与改进方向

模型优化技巧

BERT 的改进模型

总结

更多推荐文章

相关免费在线工具

预训练语言模型与 BERT 实战应用

预训练语言模型与 BERT 实战应用

学习目标与重点

预训练语言模型的发展历程与核心思想

为什么需要预训练语言模型

预训练 + 微调的核心流程

BERT 模型架构与预训练任务详解

BERT 的核心架构

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

BERT 的预训练任务

Hugging Face Transformers 库快速上手

安装与环境配置

核心组件介绍

实战：基于 BERT 的中文文本分类任务

任务介绍与数据集准备

搭建 BERT 文本分类模型

模型微调与评估

模型预测与推理

BERT 模型的优化与改进方向

模型优化技巧

BERT 的改进模型

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具