LLaMA Factory 训练可视化管理：Loss 曲线解析与性能优化 | 极客日志

PythonAI算法

LLaMA Factory 训练可视化管理：Loss 曲线解析与性能优化

介绍 LLaMA Factory 大模型微调框架的训练可视化监控方案。详细讲解了在 Ubuntu 环境下配置四种监控工具：内置 LlamaBoard、SwanLab、TensorBoard 及 Weights & Biases。涵盖环境准备、配置文件设置、多实验对比方法以及 Loss 曲线异常诊断。通过实战案例展示如何协同使用多种工具进行资源监控与参数调优，并提供不同场景下的工具选择建议，帮助开发者实现透明可控的模型训练过程。

赛博行者发布于 2026/4/5更新于 2026/7/850 浏览

一、LLaMA Factory 训练监控体系概览

LLaMA Factory 通过模块化设计实现了全面的指标监控功能，主要覆盖训练稳定性、模型性能和资源利用三大维度。系统默认在 src/llamafactory/train/sft/metric.py 中实现基础评估逻辑，同时支持通过配置文件扩展自定义指标。

核心监控指标包括：

训练稳定性：损失值、梯度范数、学习率变化
模型性能：准确率、困惑度、ROUGE 分数
文本质量：生成内容的流畅性和相关性
资源利用：GPU 内存占用、训练速度

指标数据通过标准化流程采集：计算层→评估层→存储层→展示层，最终在各种可视化工具上呈现。

二、Ubuntu 22.04 环境准备

在开始之前，确保你的 Ubuntu 22.04 系统已准备好基础环境：

# 创建并激活虚拟环境
conda create -n llama-factory-monitor python=3.10
conda activate llama-factory-monitor

# 安装 LLaMA Factory 及依赖
git clone https://github.com/hiyouga/LLaMA-Factory
cd LLaMA-Factory
pip install -e ".[torch,metrics,swanlab]"

# 安装 TensorBoard
pip install tensorboard

如果网络环境对 HuggingFace 下载不友好，可以设置国内镜像源：

# 下载源改为魔搭社区
export USE_MODELSCOPE_HUB=1
# 或者改为魔乐社区
export USE_OPENMIND_HUB=1

三、四大监控工具实战详解

1. LlamaBoard：内置 WebUI 监控

LlamaBoard 是 LLaMA Factory 自带的 Web 可视化界面，开箱即用，适合快速上手。

启动方式：

llamafactory-cli webui

启动后访问 http://127.0.0.1:7860 即可进入界面。

功能特点：

实时损失曲线显示：训练过程中自动更新损失曲线
基础训练指标：当前 epoch、学习率等关键参数
模型加载状态：实时显示模型和数据加载进度
简易参数配置：通过 Web 界面调整训练参数

优势：无需额外配置，适合初学者快速验证训练过程。局限性：功能相对基础，缺乏多实验对比能力。

2. SwanLab：国产开源训练看板

SwanLab 是国内新兴的开源训练可视化工具，与 LLaMA Factory 有深度集成。

配置步骤：

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

swanlab login

### swanlab 配置
use_swanlab: true
swanlab_project: llamafactory
swanlab_run_name: Qwen2-VL-7B-Instruct

pip install tensorboard

# 训练时添加--report_to 参数
python src/train.py \
  --config examples/train_lora/llama3_lora_sft.yaml \
  --report_to tensorboard

tensorboard --logdir=./runs --port=6006

# 目录结构
runs/
├── exp1_lr1e-5
├── exp2_lr3e-5
└── exp3_lr5e-5

# 启动 TensorBoard 时指定父目录
tensorboard --logdir=./runs --port=6006

pip install wandb
wandb login

# 在训练配置 YAML 文件中添加
report_to:
  - wandb
wandb_project: my-llama-project
wandb_run_name: experiment-1

# examples/train_lora/qwen2_lora_sft.yaml
model_name_or_path: Qwen/Qwen2.5-1.5B-Instruct
dataset: alpaca_zh_demo
finetuning_type: lora
# 监控配置
report_to:
  - tensorboard
  - swanlab
  - wandb
use_swanlab: true
swanlab_project: qwen2.5b-demo
swanlab_run_name: first-experiment
wandb_project: llama-factory-demo

# 在 metric.py 中添加自定义指标
eval_metrics = ["accuracy", "perplexity", "rouge-1", "rouge-2", "rouge-l"]

llamafactory-cli train examples/train_lora/qwen2_lora_sft.yaml

# 在配置中添加梯度裁剪
gradient_clip_val: 1.0
gradient_norm_threshold: 10.0

工具特性	LlamaBoard	SwanLab	TensorBoard	Weights & Biases
安装配置难度	简单	中等	中等	复杂
功能丰富度	基础	中等	丰富	非常丰富
多实验对比	不支持	支持	支持	强大支持
团队协作	不支持	支持	有限支持	强大支持
本地部署	是	支持混合	是	云端为主
学习曲线	平缓	中等	中等	陡峭

LLaMA Factory 训练可视化管理：Loss 曲线解析与性能优化

一、LLaMA Factory 训练监控体系概览

二、Ubuntu 22.04 环境准备

三、四大监控工具实战详解

1. LlamaBoard：内置 WebUI 监控

2. SwanLab：国产开源训练看板

更多推荐文章

相关免费在线工具

3. TensorBoard：经典强大的可视化工具

4. Weights & Biases（W&B）：企业级实验跟踪

四、实战案例：多工具协同监控训练过程

五、训练异常诊断与调优

1. 损失曲线异常分析

2. 梯度监控

3. 资源瓶颈诊断

六、工具对比与选择建议

七、总结

更多推荐文章

相关免费在线工具

LLaMA Factory 训练可视化管理：Loss 曲线解析与性能优化

一、LLaMA Factory 训练监控体系概览

二、Ubuntu 22.04 环境准备

三、四大监控工具实战详解

1. LlamaBoard：内置 WebUI 监控

2. SwanLab：国产开源训练看板

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3. TensorBoard：经典强大的可视化工具

4. Weights & Biases（W&B）：企业级实验跟踪

四、实战案例：多工具协同监控训练过程

五、训练异常诊断与调优

1. 损失曲线异常分析

2. 梯度监控

3. 资源瓶颈诊断

六、工具对比与选择建议

七、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具