LLM 大模型训练优化策略详解:数据并行、模型并行与 ZeRO | 极客日志