为什么现在的 LLM 都是 Decoder only 的架构? | 极客日志