主流大模型为何普遍采用 Decoder-only 架构? | 极客日志