1. 摘要
本报告详细记录了在不支持 BFloat16 和 Tensor Cores 半精度加速(Pascal 架构)的老旧硬件(Tesla P40)上,成功训练 70B 参数量级大预言模型的技术方案。
通过结合 4-bit NF4 量化、模型自动分片 (Model Sharding) 以及 纯 FP32 训练管线 (Pure FP32 Pipeline),我们成功克服了硬件架构限制,实现了稳定训练。
在 NVIDIA Tesla P40(Pascal 架构,无 BFloat16 支持)上训练 Llama-3.3-70B 大模型的方案。通过采用 4-bit NF4 量化、模型自动分片及纯 FP32 训练管线,解决了显存不足和混合精度崩溃问题。核心步骤包括锁定 CUDA 11.8 环境、配置 BitsAndBytes 强制 FP32 计算、使用 LoRA 微调并禁用 AMP。最终实现了在 4 张 P40 显卡上的稳定训练。
本报告详细记录了在不支持 BFloat16 和 Tensor Cores 半精度加速(Pascal 架构)的老旧硬件(Tesla P40)上,成功训练 70B 参数量级大预言模型的技术方案。
通过结合 4-bit NF4 量化、模型自动分片 (Model Sharding) 以及 纯 FP32 训练管线 (Pure FP32 Pipeline),我们成功克服了硬件架构限制,实现了稳定训练。
Tesla P40 是一张性价比极高但年代久远的显卡(Pascal 架构,2016 年)。
为了保证最大的兼容性,建议锁定以下版本(经验证通过):
Llama-3.3-70B 的 FP16 权重需要约 140GB 显存。单张 P40 (24GB) 无法承载,甚至 4 张 (96GB) 也无法全参数加载。
✅ 解决方案:4-bit 量化 + 模型分片
accelerate 的自动分片功能,将模型层分布到 4 张 GPU 上。
这是最棘手的问题。现代训练框架默认倾向于使用 BF16 或 FP16 混合精度 (AMP)。
在 P40 上:
bf16=True -> 直接报错 RuntimeError: BFloat16 not implemented。fp16=True (AMP) -> GradientScaler 在处理梯度时会崩溃,或者遇到 RuntimeError: expected mat1 and mat2 to have the same dtype,因为某些内部算子(尤其是量化相关的)可能悄悄转换成了 BF16。✅ 解决方案:纯 FP32 训练管线 (Pure FP32 Pipeline)
这是唯一稳健的方案。虽然 FP32 显存占用比 FP16 大一倍(主要在激活值和梯度),但由于我们已经使用了 4-bit 权重,剩下的空间足够 batch_size=1 的 FP32 训练。
fp16=False, bf16=False。lm_head, LayerNorm, LoRA adapters) 强制转换为 float32。bnb_4bit_compute_dtype=torch.float32。conda create -n llama_p40 python=3.10 -y
conda activate llama_p40
# 安装 PyTorch (CUDA 11.8)
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
# 安装核心依赖
pip install --upgrade transformers peft bitsandbytes trl accelerate unsloth
创建一个 python 脚本 (e.g., train_p40.py),关键部分如下:
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig, TrainingArguments
from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training
from trl import SFTTrainer, SFTConfig
# 1. 配置 4-bit 量化 (关键:使用 FP32 计算)
bnb_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_quant_type="nf4", # 推荐 nf4 精度更高
bnb_4bit_compute_dtype=torch.float32, # [关键] P40 必须用 FP32 计算
bnb_4bit_use_double_quant=True,
)
# 2. 加载模型 (关键:分片 + 强制 float32)
model = AutoModelForCausalLM.from_pretrained(
"/path/to/Llama-3.3-70B-Instruct",
quantization_config=bnb_config,
device_map="auto", # 自动分片到多卡
torch_dtype=torch.float32, # [关键] 强制模型加载为 float32
low_cpu_mem_usage=True,
)
# 3. 后处理:手动将所有非量化层转为 FP32
# BitsAndBytes 会锁定量化层,我们只需要转换剩下的
for name, module in model.named_modules():
if "norm" in name.lower() or "lm_head" in name.lower():
module.to(torch.float32)
# 4. 配置 LoRA
model = prepare_model_for_kbit_training(model)
lora_config = LoraConfig(
r=8,
lora_alpha=16,
target_modules=["q_proj","k_proj","v_proj","o_proj"],
task_type="CAUSAL_LM"
)
model = get_peft_model(model, lora_config)
# 5. 再次确保 LoRA 层也是 FP32
for name, module in model.named_modules():
if "lora_" in name:
module.to(torch.float32)
# 6. 训练参数 (关键:禁用 AMP)
sft_config = SFTConfig(
output_dir="./output",
per_device_train_batch_size=1, # 显存有限,BS=1
gradient_accumulation_steps=8, # 累积梯度弥补 BS
fp16=False, # [关键] 必须关闭
bf16=False, # [关键] 必须关闭
optim="paged_adamw_8bit", # 节省优化器显存
max_length=2048, # 根据显存调整
)
trainer = SFTTrainer(
model=model,
args=sft_config,
# ... 其他数据集配置
)
trainer.train()
不要使用 accelerate launch 或 torchrun,因为我们使用的是 device_map="auto" (模型并行),而不是 DDP (数据并行)。直接用 Python 运行:
CUDA_VISIBLE_DEVICES=0,1,2,3 python train_p40.py
device_map 是更简单的替代方案。RuntimeError: "_amp_foreach_non_finite_check_and_unscale_cuda" not implemented for 'BFloat16'
fp16=True)。即使你没有显式使用 BF16,某些内部组件也可能触发它。请确保 fp16=False 且所有层都是 float32。max_length (e.g. 2048 -> 1024).per_device_train_batch_size (e.g. 1).gradient_checkpointing=True (Unsloth/TRL 默认支持).
微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online