LLM 架构解析:为何主流大模型偏好 Decoder-Only 设计 | 极客日志