Transformer 架构详解:从 RNN 挑战到自注意力机制与词嵌入 | 极客日志