断点续训神器：Llama Factory云环境自动保存checkpoint实践

优质文章学习记录

10 Apr 2026 — 5 min read

断点续训神器：Llama Factory云环境自动保存checkpoint实践

训练大型语言模型（如72B参数的Qwen或Baichuan）时，最令人头疼的问题莫过于云实例突然被回收，导致训练进度全部丢失。本文将介绍如何利用Llama Factory框架在云环境中实现自动保存checkpoint，确保训练进度可随时恢复。

这类任务通常需要GPU环境，目前ZEEKLOG算力平台提供了包含该镜像的预置环境，可快速部署验证。Llama Factory是一个专为大模型微调设计的开源框架，支持全参数微调、LoRA等多种方法，特别适合在云环境中进行长时间训练任务。

为什么需要断点续训功能

训练72B级别的大模型往往需要数天甚至数周时间，而云实例可能因各种原因（如计费周期、维护回收）被中断。传统的手动保存方式存在几个痛点：

忘记保存导致进度丢失
保存间隔过长，恢复后仍需重复计算
检查点文件管理混乱

Llama Factory通过以下机制解决这些问题：

自动定时保存训练状态
支持从任意检查点恢复训练
优化检查点存储策略，平衡IO开销和安全性

环境准备与资源配置

在开始之前，我们需要确保环境满足大模型训练的基本要求。以72B模型全参数微调为例：

GPU建议配置：
至少8张A800/A100 80G显卡
启用NVLink提升多卡通信效率
存储空间：
原始模型约需140GB空间
每个检查点约需50-100GB空间
建议预留1TB以上存储

启动训练前，建议运行以下命令检查环境：

nvidia-smi # 查看GPU状态 df -h # 查看磁盘空间 free -h # 查看内存情况

配置自动保存checkpoint

Llama Factory的自动保存功能主要通过配置文件实现。以下是关键参数设置：

创建或修改train_config.yaml文件：

training: save_steps: 500 # 每500步保存一次 save_total_limit: 5 # 最多保留5个检查点 save_safetensors: true # 使用安全格式保存 output_dir: "./checkpoints" # 保存路径 deepspeed: stage: 3 offload_optimizer: true offload_param: true

启动训练时指定配置文件：

python src/train_bash.py \ --config train_config.yaml \ --model_name_or_path Qwen/Qwen-72B \ --data_path dataset.json \ --bf16 true \ --deepspeed ds_z3_config.json

提示：save_steps值需要根据实际训练速度调整。对于72B模型，建议设置为500-1000步，避免频繁IO影响训练效率。

从检查点恢复训练

当训练意外中断后，恢复训练非常简单：

查找最新的检查点：

ls -lt checkpoints | head # 查看检查点时间戳

使用--resume_from_checkpoint参数继续训练：

python src/train_bash.py \ --resume_from_checkpoint checkpoints/checkpoint-1500 \ --config train_config.yaml \ --model_name_or_path Qwen/Qwen-72B \ --data_path dataset.json \ --bf16 true \ --deepspeed ds_z3_config.json

Llama Factory会自动恢复以下状态： - 模型参数 - 优化器状态 - 学习率调度 - 随机数种子

高级配置与优化建议

检查点存储策略优化

对于长期训练任务，可以考虑以下优化方案：

使用云存储挂载检查点目录，避免本地磁盘空间不足
启用检查点压缩，减少存储占用： yaml training: save_compressed: true # 启用压缩
定期备份重要检查点到持久化存储

显存不足时的解决方案

如果遇到显存不足(OOM)问题，可以尝试：

调整微调方法：
使用LoRA代替全参数微调
尝试QLoRA进一步降低显存需求
优化训练配置： yaml training: per_device_train_batch_size: 2 # 减小batch size gradient_accumulation_steps: 8 # 增加梯度累积 cutoff_len: 512 # 缩短序列长度
使用更高效的优化器： yaml optimizer: name: adamw_8bit # 使用8bit优化器

实战经验与常见问题

在72B模型训练过程中，我们总结了以下经验：

稳定性比速度更重要：适当降低batch size可以避免OOM导致的中断
监控是关键：建议使用工具监控显存使用情况，提前预警
测试小模型：先用7B模型验证配置正确性，再扩展到72B

常见问题解决方案：

恢复训练后loss异常升高：
检查是否使用了相同的随机种子
确认数据加载顺序没有改变
检查点损坏无法加载：
优先尝试加载上一个检查点
检查磁盘空间是否充足
多节点训练同步问题：
确保所有节点能访问共享存储
使用分布式文件系统如NFS

总结与下一步探索

通过Llama Factory的自动保存checkpoint功能，我们终于可以安心地进行大规模模型训练了。关键要点包括：

合理配置保存间隔和保留数量
熟悉恢复训练的命令行参数
根据硬件条件优化训练配置

下一步可以尝试：

结合WandB等工具实现训练可视化监控
探索混合精度训练的更多优化可能
测试不同微调方法对模型性能的影响

现在，你可以放心地启动那个72B模型的训练任务了。即使云实例被回收，也能从上次中断的地方继续，不再需要从头开始。祝你的大模型训练之旅顺利！

深入剖析云原生Service Mesh数据平面Envoy核心架构：基于xDS协议与WebAssembly实现动态流量管理与安全策略的微服务治理实战指南

深入剖析云原生Service Mesh数据平面Envoy核心架构：基于xDS协议与WebAssembly实现动态流量管理与安全策略的微服务治理实战指南在云原生微服务架构的演进中，Service Mesh（服务网格）已成为处理服务间通信的标准基础设施。而在这一架构中，Envoy 凭借其高性能的 C++ 实现、可扩展的架构以及作为 Istio 默认数据平面的地位，成为了事实上的“Sidecar之王”。本文将深入剖析 Envoy 的核心架构，重点解析其如何通过 xDS 协议实现动态配置，以及如何利用 WebAssembly (Wasm) 技术突破传统的扩展瓶颈，实现微服务的流量管理与安全策略治理。 1. Envoy 核心架构全景：高性能的“四层”模型 Envoy 本质上是一个高性能的边缘/服务代理，其设计核心在于将网络处理逻辑分解为清晰的层级。这种设计不仅保证了极高的吞吐量，也使得配置极其灵活。 1.1 逻辑架构分层 Envoy 的逻辑架构自上而下分为四个核心层次： Level 1: 线程模型与I/

【前端的坑】vxe-grid表格tooltip提示框不显示bug

官方API：注意：如果是false的话表格宽度会按照内容多少来决定；而如果是true的话默认是 tooltip 效果。当showOverflow值为 tooltip时： gridOptions: { showOverflow: 'tooltip', ...... }, 效果：当showOverflow值为 ellipsis时： gridOptions: { showOverflow: 'ellipsis', ...... }, 效果： showOverflow字段设置了tooltip却不生效的可能有这两种： 1. 在插槽中使用了div而不是span标签（参考博客：vxe-table 解决show-overflow只显示弹窗不显示省略号或默认样式有省略号，弹窗不出现问题） 2. z-index 太低了，请添加如下样式 .vxe-table--tooltip-wrapper { z-index: 99 !important; }

Axum： Rust 好用的 Web 框架

Axum 是 Rust 生态中基于 Tokio 异步运行时和 Tower 中间件体系打造的高性能 Web 框架，以“类型安全、无宏入侵、轻量高效”为核心优势，广泛应用于云原生、微服务、API 网关等场景。它摒弃了传统 Web 框架的宏魔法，完全依赖 Rust 的类型系统实现路由匹配、请求解析、响应处理，兼顾了开发效率与运行性能。本文将从环境搭建、核心概念、路由设计、请求处理、中间件开发到生产级实战，全方位拆解 Axum 的使用技巧，每个知识点均配套可运行的示例代码，帮助开发者从入门到精通，快速构建高性能的 Rust Web 应用。一、环境准备与项目初始化 1.1 前置条件 * 安装 Rust 环境：

前端AI工具实践

Claude Code前端使用步骤一：安装 Claude Code npm install -g @anthropic-ai/claude-code 运行如下命令，查看安装结果，若显示版本号则表示安装成功 claude --version 步骤二：配置Claude Code+GLM智谱大模型(免费) Coding Tool Helper 是一个编码工具助手，安装并运行它，按照界面提示操作即可自动完成工具安装，套餐配置，MCP服务器管理等。 # 进入命令行界面，执行如下运行 Coding Tool Helper npx @z_ai/coding-helper 步骤三：开始使用 Claude Code VSCODE安装Claude Code 插件 Claude Code CLI(到指定项目目录打开CLI) Claude