Transformer 核心原理:注意力机制详解与 PyTorch 实现 | 极客日志