大模型训练原理:从自监督学习到 GPT 架构解析 | 极客日志