LLaMA Factory 在国产 DCU 上微调 Llama 3 模型实战
本文基于前期实践,详细解读使用 LLaMA Factory 工具在国产 DCU(海光 K100-AI)上对 Meta-Llama-3-8B-Instruct 模型进行 LoRA 微调、推理及导出的关键日志输出和核心测试信息。
一、环境准备与 LLaMA Factory 安装
本次实践的环境基于国产海光 DCU K100-AI,DTK 版本为 25.04。核心软件栈包括 Python 3.10 以及针对 DCU 优化的 PyTorch (torch==2.4.1+das.opt2.dtk2504) 及其相关深度学习库。
1. 创建虚拟环境
conda create -n dcu_llm_fine python=3.10
conda activate dcu_llm_fine
2. 安装 DCU 特定深度学习库
根据文档指引,从开发者社区下载并安装适配 DCU K100-AI (DTK 25.04, Python 3.10) 的 PyTorch, lmslim, flash-attn, vllm, deepspeed 等 whl 包。确保各组件版本严格对应。
3. 安装 LLaMA Factory
git clone http://developer.hpccube.com/codes/OpenDAS/llama-factory.git
cd /your_code_path/llama_factory
pip install -e ".[torch,metrics]"
注意:如遇包冲突,可尝试 pip install --no-deps -e .。
二、Llama 3 LoRA 微调实战
我们以 Meta-Llama-3-8B-Instruct 模型为例,采用 LoRA (Low-Rank Adaptation) 方法进行监督式微调 (SFT)。
1. 微调配置文件解析 (llama3_lora_sft.yaml)
以下是核心配置参数:
### model
model_name_or_path: /root/.cache/modelscope/hub/models/LLM-Research/Meta-Llama-3-8B-Instruct
trust_remote_code: true
### method
stage: sft # 微调阶段:监督式微调
do_train: true
finetuning_type: lora # 微调方法:LoRA
lora_rank: 8 # LoRA 秩


