Hugging Face 技术主管详解 Llama 3 微调方案 | 极客日志

PythonAI算法

Hugging Face 技术主管详解 Llama 3 微调方案

利用 Hugging Face 库、PyTorch FSDP 和 Q-Lora 对 Llama 3 大语言模型进行高效微调的方法。内容涵盖开发环境搭建、数据集创建与加载、使用 SFTTrainer 进行分布式训练、适配器合并及模型推理测试。实验基于 NVIDIA GPU 验证，展示了如何在有限算力下以较低成本完成 70B 模型的微调，并提供了详细的配置参数与代码示例。

孤勇者发布于 2025/2/6更新于 2026/7/2036 浏览

Hugging Face 技术主管详解 Llama 3 微调方案

大语言模型的微调一直是说起来容易做起来难的事儿。近日 Hugging Face 技术主管 Philipp Schmid 发表了一篇博客，详细讲解了如何利用 Hugging Face 上的库和 fsdp 以及 Q-Lora 对大模型进行微调。

我们知道，Meta 推出的 Llama 3、Mistral AI 推出的 Mistral 和 Mixtral 模型以及 AI21 实验室推出的 Jamba 等开源大语言模型已经成为 OpenAI 的竞争对手。

不过，大多数情况下，使用者需要根据自己的数据对这些开源模型进行微调，才能充分释放模型的潜力。

虽然在单个 GPU 上使用 Q-Lora 对较小的大语言模型（如 Mistral）进行微调不是难事，但对像 Llama 3 70b 或 Mixtral 这样的大模型的高效微调直到现在仍是一个难题。

因此，Hugging Face 技术主管 Philipp Schmid 介绍了如何使用 PyTorch FSDP 和 Q-Lora，并在 Hugging Face 的 TRL、Transformers、peft 和 datasets 等库的帮助下，对 Llama 3 进行微调。除了 FSDP，作者还对 PyTorch 2.2 更新后的 Flash Attention v2 也进行了适配。

微调主要步骤如下：

设置开发环境
创建并加载数据集
使用 PyTorch FSDP、Q-Lora 和 SDPA 微调大语言模型
测试模型并进行推理

注：本文进行的实验是在英伟达（NVIDIA）H100 和英伟达（NVIDIA）A10G GPU 上创建和验证的。配置文件和代码针对 4xA10G GPU 进行了优化，每个 GPU 均配备 24GB 内存。如果使用者有更多的算力，第 3 步提到的配置文件（yaml 文件）需要做相应的修改。

FSDP+Q-Lora 背景知识

基于一项由 Answer.AI、Q-Lora 创建者 Tim Dettmers 和 Hugging Face 共同参与的合作项目，作者对 Q-Lora 和 PyTorch FSDP（完全共享数据并行）所能提供的技术支持进行了总结。

FSDP 和 Q-Lora 的结合使用能让使用者在 2 个消费级 GPU（24GB）上就能对 Llama 2 70b 或 Mixtral 8x7B 进行微调，细节可以参考相关技术文档。其中 Hugging Face 的 PEFT 库对此有至关重要的作用。

PyTorch FSDP 是一种数据 / 模型并行技术，它可以跨 GPU 分割模型，减少内存需求，并能够更有效地训练更大的模型。Q-LoRA 是一种微调方法，它利用量化和低秩适配器来有效地减少计算需求和内存占用。

设置开发环境

第一步是安装 Hugging Face Libraries 以及 Pytorch，包括 trl、transformers 和 datasets 等库。trl 是建立在 transformers 和 datasets 基础上的一个新库，能让对开源大语言模型进行微调、RLHF 和对齐变得更容易。

# Install Pytorch for FSDP and FA/SDPA
pip install "torch==2.2.2" tensorboard

# Install Hugging Face libraries
pip install --upgrade "transformers==4.40.0" "datasets==2.18.0" "accelerate==0.29.3" "evaluate==0.4.1" "bitsandbytes==0.43.1" "huggingface_hub==0.22.2" "trl==0.8.6" "peft==0.10.0"

接下来，登录 Hugging Face 获取 Llama 3 70b 模型。

创建和加载数据集

环境设置完成后，我们就可以开始创建和准备数据集了。微调用的数据集应该包含使用者想要解决的任务的示例样本。

作者使用了 HuggingFaceH4/no_robots 数据集，这是一个包含 10,000 条指令和样本的高质量数据集，并且经过了高质量的数据标注。这些数据可用于有监督微调（SFT），使语言模型更好地遵循人类指令。no_robots 数据集以 OpenAI 发表的 InstructGPT 论文中描述的人类指令数据集为原型，并且主要由单句指令组成。

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

{"messages": [{"role": "system", "content": "You are..."}, {"role": "user", "content": "..."}, {"role": "assistant", "content": "..."}]}

from datasets import load_dataset

# Convert dataset to OAI messages
system_message = """You are Llama, an AI assistant created by Philipp to be helpful and honest. Your knowledge spans a wide range of topics, allowing you to engage in substantive conversations and provide analysis on complex subjects."""

def create_conversation(sample):
    if sample["messages"][0]["role"] == "system":
        return sample
    else:
        sample["messages"] = [{"role": "system", "content": system_message}] + sample["messages"]
        return sample

# Load dataset from the hub
dataset = load_dataset("HuggingFaceH4/no_robots")

# Add system message to each conversation
columns_to_remove = list(dataset["train"].features)
columns_to_remove.remove("messages")
dataset = dataset.map(create_conversation, remove_columns=columns_to_remove, batched=False)

# Filter out conversations which are corrupted with wrong turns, keep which have even number of turns after adding system message
dataset["train"] = dataset["train"].filter(lambda x: len(x["messages"][1:]) % 2 == 0)
dataset["test"] = dataset["test"].filter(lambda x: len(x["messages"][1:]) % 2 == 0)

# save datasets to disk
dataset["train"].to_json("train_dataset.json", orient="records", force_ascii=False)
dataset["test"].to_json("test_dataset.json", orient="records", force_ascii=False)

%%writefile llama_3_70b_fsdp_qlora.yaml
# script parameters
model_id: "meta-llama/Meta-Llama-3-70b" # Hugging Face model id
dataset_path: "."                      # path to dataset
max_seq_len:  3072 # 2048              # max sequence length for model and packing of the dataset
# training parameters
output_dir: "./llama-3-70b-hf-no-robot" # Temporary output directory for model checkpoints
report_to: "tensorboard"               # report metrics to tensorboard
learning_rate: 0.0002                  # learning rate 2e-4
lr_scheduler_type: "constant"          # learning rate scheduler
num_train_epochs: 3                    # number of training epochs
per_device_train_batch_size: 1         # batch size per device during training
per_device_eval_batch_size: 1          # batch size for evaluation
gradient_accumulation_steps: 2         # number of steps before performing a backward/update pass
optim: adamw_torch                     # use torch adamw optimizer
logging_steps: 10                      # log every 10 steps
save_strategy: epoch                   # save checkpoint every epoch
evaluation_strategy: epoch             # evaluate every epoch
max_grad_norm: 0.3                     # max gradient norm
warmup_ratio: 0.03                     # warmup ratio
bf16: true                             # use bfloat16 precision
tf32: true                             # use tf32 precision
gradient_checkpointing: true           # use gradient checkpointing to save memory
# FSDP parameters: https://huggingface.co/docs/transformers/main/en/fsdp
fsdp: "full_shard auto_wrap offload" # remove offload if enough GPU memory
fsdp_config:
  backward_prefetch: "backward_pre"
  forward_prefetch: "false"
  use_orig_params: "false"

!ACCELERATE_USE_FSDP=1 FSDP_CPU_RAM_EFFICIENT_LOADING=1 torchrun --nproc_per_node=4 ./scripts/run_fsdp_qlora.py --config llama_3_70b_fsdp_qlora.yaml

#### COMMENT IN TO MERGE PEFT AND BASE MODEL ####
# from peft import AutoPeftModelForCausalLM
#
# # Load PEFT model on CPU
# model = AutoPeftModelForCausalLM.from_pretrained(
#     args.output_dir,
#     torch_dtype=torch.float16,
#     low_cpu_mem_usage=True,
# )
# # Merge LoRA and base model and save
# merged_model = model.merge_and_unload()
# merged_model.save_pretrained(args.output_dir,safe_serialization=True, max_shard_size="2GB")

import torch
from peft import AutoPeftModelForCausalLM
from transformers import AutoTokenizer

peft_model_id = "./llama-3-70b-hf-no-robot"

# Load Model with PEFT adapter
model = AutoPeftModelForCausalLM.from_pretrained(
  peft_model_id,
  torch_dtype=torch.float16,
  quantization_config= {"load_in_4bit": True},
  device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(peft_model_id)

Hugging Face 技术主管详解 Llama 3 微调方案

Hugging Face 技术主管详解 Llama 3 微调方案

FSDP+Q-Lora 背景知识

设置开发环境

创建和加载数据集

更多推荐文章

相关免费在线工具

使用 PyTorch FSDP、Q-Lora 和 SDPA 来微调 LLM

可选步骤：将 LoRA 的适配器融入原始模型

模型测试和推理

总结

更多推荐文章

相关免费在线工具

Hugging Face 技术主管详解 Llama 3 微调方案

Hugging Face 技术主管详解 Llama 3 微调方案

FSDP+Q-Lora 背景知识

设置开发环境

创建和加载数据集

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

使用 PyTorch FSDP、Q-Lora 和 SDPA 来微调 LLM

可选步骤：将 LoRA 的适配器融入原始模型

模型测试和推理

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具