Transformer 架构深度解析:从原理推导到 PyTorch 实现 | 极客日志