Transformer 算法详解:架构、注意力机制与核心组件 | 极客日志