一、LLaMA Factory 训练监控体系概览
LLaMA Factory 通过模块化设计实现了全面的指标监控功能,主要覆盖训练稳定性、模型性能和资源利用三大维度。系统默认在 src/llamafactory/train/sft/metric.py 中实现基础评估逻辑,同时支持通过配置文件扩展自定义指标。
核心监控指标包括:
- 训练稳定性:损失值、梯度范数、学习率变化
- 模型性能:准确率、困惑度、ROUGE 分数
- 文本质量:生成内容的流畅性和相关性
- 资源利用:GPU 内存占用、训练速度
指标数据通过标准化流程采集:计算层→评估层→存储层→展示层,最终在各种可视化工具上呈现。
二、Ubuntu 22.04 环境准备
在开始之前,确保你的 Ubuntu 22.04 系统已准备好基础环境:
# 创建并激活虚拟环境
conda create -n llama-factory-monitor python=3.10
conda activate llama-factory-monitor
# 安装 LLaMA Factory 及依赖
git clone https://github.com/hiyouga/LLaMA-Factory
cd LLaMA-Factory
pip install -e ".[torch,metrics,swanlab]"
# 安装 TensorBoard
pip install tensorboard
如果网络环境对 HuggingFace 下载不友好,可以设置国内镜像源:
# 下载源改为魔搭社区
export USE_MODELSCOPE_HUB=1
# 或者改为魔乐社区
export USE_OPENMIND_HUB=1
三、四大监控工具实战详解
1. LlamaBoard:内置 WebUI 监控
LlamaBoard 是 LLaMA Factory 自带的 Web 可视化界面,开箱即用,适合快速上手。
启动方式:
llamafactory-cli webui
启动后访问 http://127.0.0.1:7860 即可进入界面。
功能特点:
- 实时损失曲线显示:训练过程中自动更新损失曲线
- 基础训练指标:当前 epoch、学习率等关键参数
- 模型加载状态:实时显示模型和数据加载进度
- 简易参数配置:通过 Web 界面调整训练参数
优势:无需额外配置,适合初学者快速验证训练过程。局限性:功能相对基础,缺乏多实验对比能力。
2. SwanLab:国产开源训练看板
SwanLab 是国内新兴的开源训练可视化工具,与 LLaMA Factory 有深度集成。
配置步骤:

