大模型分布式训练方法:数据、张量与流水线并行详解 | 极客日志