Transformer 核心机制与架构详解:注意力、自注意力及模型结构 | 极客日志