大模型训练原理深度解析:以 GPT-1 为例 | 极客日志