Decoder-only 架构的 LLM 为何仍需位置编码
众所周知,目前主流的大语言模型(LLM)大多基于因果注意力机制(Causal Attention)的 Decoder-only 架构。对于 Causal Attention,已有研究指出其在不添加额外位置编码(NoPE, No Positional Encoding)的情况下也能取得非平凡的效果。然而,事实是绝大多数主流的 Decoder-only LLM 仍然加入了显式的位置编码,例如 RoPE(Rotary Positional Embedding)、ALIBI 等。


