
PyTorch Checkpoint 机制原理与源码解析
PyTorch Checkpoint 机制通过时间换空间策略降低显存占用。核心是在前向传播时不保存中间激活值,反向传播时重新计算。涉及 torch.no_grad() 模式、随机状态保存、自定义 Function 实现等细节。源码中 CheckpointFunction 类负责管理输入输出及梯度回传逻辑。适用于深层网络如 DenseNet、Swin Transformer。使用 checkpoint_sequential 可方便地对 S…
















