一次预测多个 token:Meta 的新训练方法在编码上表现亮眼 | 极客日志