PyTorch 模型训练的 9 个优化技巧

PyTorch 模型训练的 9 个优化技巧 | 极客日志

from torch.utils.data import DataLoader
from torchvision.datasets import MNIST

dataset = MNIST(root='./data', train=True, download=True)
loader = DataLoader(dataset, batch_size=32, shuffle=True, num_workers=4, pin_memory=True)

for batch in loader:
    x, y = batch
    model.training_step(x, y)

# 慢：主进程加载
loader = DataLoader(dataset, batch_size=32, shuffle=True)

# 快：启用 4 个 worker 进程
loader = DataLoader(dataset, batch_size=32, shuffle=True, num_workers=4)

optimizer.zero_grad()
scaled_loss = 0
accumulated_steps = 4

for i in range(accumulated_steps):
    out = model.forward()
    loss = some_loss(out, y) / accumulated_steps
    loss.backward()
    scaled_loss += loss.item()

optimizer.step()
actual_loss = scaled_loss

trainer = Trainer(accumulate_grad_batches=4)
trainer.fit(model)

# 错误：保留计算图副本
losses.append(loss)

# 正确：仅存储数值
losses.append(loss.item())

model.cuda()
x = x.cuda()
out = model(x)

from torch.cuda.amp import autocast, GradScaler
scaler = GradScaler()

with autocast():
    output = model(input)
    loss = criterion(output, target)

scaler.scale(loss).backward()
scaler.step(optimizer)
scaler.update()

trainer = Trainer(precision=16)
trainer.fit(model)

model = DataParallel(model, device_ids=[0, 1, 2, 3])
out = model(x)

self.encoder.cuda(0)
self.decoder.cuda(1)
out = self.decoder(self.encoder(x))

def main_process_entrypoint(gpu_nb):
    dist.init_process_group("nccl", rank=gpu_nb, world_size=world)
    torch.cuda.set_device(gpu_nb)
    model = DistributedDataParallel(model, device_ids=[gpu_nb])
    # 训练逻辑...

if __name__ == '__main__':
    mp.spawn(main_process_entrypoint, nprocs=8)

trainer = Trainer(gpus=8, accelerator='ddp')
trainer.fit(model)

PyTorch 模型训练的 9 个优化技巧

1. 使用 DataLoader 高效加载数据

2. 设置 num_workers 参数并行加载

3. 增大 Batch Size

4. 梯度累积（Gradient Accumulation）

5. 避免保留计算图

6. 单个 GPU 训练优化

7. 使用 16-bit 混合精度

8. 多 GPU 训练策略

分批次训练（DataParallel）

模型分布训练（Model Parallelism）

混合使用

9. 分布式多节点训练

总结

更多推荐文章

相关免费在线工具

PyTorch 模型训练的 9 个优化技巧

1. 使用 DataLoader 高效加载数据

2. 设置 num_workers 参数并行加载

3. 增大 Batch Size

4. 梯度累积（Gradient Accumulation）

5. 避免保留计算图

6. 单个 GPU 训练优化

7. 使用 16-bit 混合精度

8. 多 GPU 训练策略

分批次训练（DataParallel）

模型分布训练（Model Parallelism）

混合使用

9. 分布式多节点训练

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具