为何当前主流 LLM 普遍采用 Decoder-Only 架构? | 极客日志