Transformer 注意力机制详解:自注意力、交叉与因果自注意力 PyTorch 实现 | 极客日志