PyTorch 从零训练大模型实战:Transformer 架构与训练流程详解 | 极客日志