Transformer 为何选择自注意力机制? | 极客日志