大语言模型微调指南：LoRA 原理与实践代码

大语言模型微调指南：LoRA 原理与实践代码 | 极客日志

!pip install datasets
!pip install transformers
!pip install evaluate
!pip install torch
!pip install peft

from datasets import load_dataset, DatasetDict, Dataset
from transformers import (
    AutoTokenizer,
    AutoConfig,
    AutoModelForSequenceClassification,
    DataCollatorWithPadding,
    TrainingArguments,
    Trainer)
from peft import PeftModel, PeftConfig, get_peft_model, LoraConfig
import evaluate
import torch
import numpy as np

# 加载 IMDB 数据
imdb_dataset = load_dataset("stanfordnlp/imdb")

# 定义子采样大小
N = 1000 
rand_idx = np.random.randint(24999, size=N) 

# 提取训练和测试数据
x_train = imdb_dataset['train'][rand_idx]['text']
y_train = imdb_dataset['train'][rand_idx]['label']
x_test = imdb_dataset['test'][rand_idx]['text']
y_test = imdb_dataset['test'][rand_idx]['label']

# 创建新数据集
dataset = DatasetDict({
    'train': Dataset.from_dict({'label': y_train, 'text': x_train}),
    'validation': Dataset.from_dict({'label': y_test, 'text': x_test})
})

print(np.array(dataset['train']['label']).sum() / len(dataset['train']['label'])) # 约 0.508

{
  "label": 0,
  "text": "Not a fan, don't recommend."
}

from transformers import AutoModelForSequenceClassification
model_checkpoint = 'distilbert-base-uncased'

# 定义标签映射
id2label = {0: "Negative", 1: "Positive"}
label2id = {"Negative": 0, "Positive": 1}

# 生成分类模型
model = AutoModelForSequenceClassification.from_pretrained(
    model_checkpoint, num_labels=2, id2label=id2label, label2id=label2id)

from transformers import AutoTokenizer

# 创建分词器
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint, add_prefix_space=True)

# 添加 pad token
if tokenizer.pad_token is None:
    tokenizer.add_special_tokens({'pad_token': '[PAD]'})
    model.resize_token_embeddings(len(tokenizer))

# 定义 tokenize 函数
def tokenize_function(examples):
    text = examples["text"]
    tokenizer.truncation_side = "left"
    tokenized_inputs = tokenizer(
        text,
        return_tensors="np",
        truncation=True,
        max_length=512,
        padding='max_length'
    )
    return tokenized_inputs

# 处理数据集
tokenized_dataset = dataset.map(tokenize_function, batched=True)

from transformers import DataCollatorWithPadding
data_collator = DataCollatorWithPadding(tokenizer=tokenizer)

import torch
from peft import LoraConfig, get_peft_model
import evaluate

# 评估指标
accuracy = evaluate.load("accuracy")
def compute_metrics(p):
    predictions, labels = p
    predictions = np.argmax(predictions, axis=1)
    return {"accuracy": accuracy.compute(predictions=predictions, references=labels)}

# PEFT 配置
peft_config = LoraConfig(
    task_type="SEQ_CLS",
    r=1,
    lora_alpha=32,
    lora_dropout=0.01,
    target_modules=['q_lin']
)

# 获取 PEFT 模型
model = get_peft_model(model, peft_config)
model.print_trainable_parameters()

# 超参数
lr = 1e-3
batch_size = 4
num_epochs = 10

from transformers import TrainingArguments

training_args = TrainingArguments(
    output_dir=model_checkpoint + "-lora-text-classification",
    learning_rate=lr,
    per_device_train_batch_size=batch_size,
    per_device_eval_batch_size=batch_size,
    num_train_epochs=num_epochs,
    weight_decay=0.01,
    evaluation_strategy="epoch",
    save_strategy="epoch",
    load_best_model_at_end=True,
)

from transformers import Trainer
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_dataset["train"],
    eval_dataset=tokenized_dataset["validation"],
    tokenizer=tokenizer,
    data_collator=data_collator,
    compute_metrics=compute_metrics,
)

# 开始训练
trainer.train()

from peft import PeftModel
merged_model = model.merge_and_unload()
merged_model.save_pretrained("./merged_model")

大语言模型微调指南：LoRA 原理与实践代码

导读

1. 什么是 Fine-tuning

1.1 为什么要 Fine-tuning

1.1.1 强化特定任务能力

1.1.2 提高模型性能

1.1.3 避免数据泄漏

1.1.4 降低成本

1.2 相关概念区分

1.2.1 RLHF 与 SFT

1.2.2 继续预训练与微调

2. 如何 Fine-tuning

2.1 微调基本原理

2.2 什么是 LoRA

2.2.1 基本概念

2.2.2 原理分析

2.3 微调过程

2.4 使用 LoRA 微调代码分析

2.4.1 库安装与包引入

2.4.2 微调数据构造

2.4.3 加载初始模型

2.4.4 Tokenize 与 Pad 预处理

2.4.5 微调配置与训练

2.5 部署与推理优化

2.6 最佳实践总结

3. 结语

更多推荐文章

相关免费在线工具

大语言模型微调指南：LoRA 原理与实践代码

导读

1. 什么是 Fine-tuning

1.1 为什么要 Fine-tuning

1.1.1 强化特定任务能力

1.1.2 提高模型性能

1.1.3 避免数据泄漏

1.1.4 降低成本

1.2 相关概念区分

1.2.1 RLHF 与 SFT

1.2.2 继续预训练与微调

2. 如何 Fine-tuning

2.1 微调基本原理

2.2 什么是 LoRA

2.2.1 基本概念

2.2.2 原理分析

2.3 微调过程

2.4 使用 LoRA 微调代码分析

2.4.1 库安装与包引入

2.4.2 微调数据构造

2.4.3 加载初始模型

2.4.4 Tokenize 与 Pad 预处理

2.4.5 微调配置与训练

2.5 部署与推理优化

2.6 最佳实践总结

3. 结语

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具