LLaMA Factory 在国产 DCU 上微调 Llama 3 模型实战 | 极客日志

PythonAI算法

LLaMA Factory 在国产 DCU 上微调 Llama 3 模型实战

在国产海光 DCU（K100-AI）上使用 LLaMA Factory 对 Llama 3-8B-Instruct 模型进行 LoRA 微调的完整流程。内容涵盖环境搭建、配置文件解析、训练日志解读、推理测试及模型导出步骤。通过详细分析关键日志和输出结果，帮助开发者掌握在大模型微调中的配置要点与常见问题处理。

观心发布于 2026/4/6更新于 2026/7/2850 浏览

LLaMA Factory 在国产 DCU 上微调 Llama 3 模型实战

本文基于前期实践，详细解读使用 LLaMA Factory 工具在国产 DCU（海光 K100-AI）上对 Meta-Llama-3-8B-Instruct 模型进行 LoRA 微调、推理及导出的关键日志输出和核心测试信息。

一、环境准备与 LLaMA Factory 安装

本次实践的环境基于国产海光 DCU K100-AI，DTK 版本为 25.04。核心软件栈包括 Python 3.10 以及针对 DCU 优化的 PyTorch (torch==2.4.1+das.opt2.dtk2504) 及其相关深度学习库。

1. 创建虚拟环境

conda create -n dcu_llm_fine python=3.10
conda activate dcu_llm_fine

2. 安装 DCU 特定深度学习库

根据文档指引，从开发者社区下载并安装适配 DCU K100-AI (DTK 25.04, Python 3.10) 的 PyTorch, lmslim, flash-attn, vllm, deepspeed 等 whl 包。确保各组件版本严格对应。

3. 安装 LLaMA Factory

git clone http://developer.hpccube.com/codes/OpenDAS/llama-factory.git
cd /your_code_path/llama_factory
pip install -e ".[torch,metrics]"

注意：如遇包冲突，可尝试 pip install --no-deps -e .。

二、Llama 3 LoRA 微调实战

我们以 Meta-Llama-3-8B-Instruct 模型为例，采用 LoRA (Low-Rank Adaptation) 方法进行监督式微调 (SFT)。

1. 微调配置文件解析 (llama3_lora_sft.yaml)

以下是核心配置参数：

### model
model_name_or_path: /root/.cache/modelscope/hub/models/LLM-Research/Meta-Llama-3-8B-Instruct
trust_remote_code: true

### method
stage: sft # 微调阶段：监督式微调
do_train: true
finetuning_type: lora # 微调方法：LoRA
lora_rank: 8 # LoRA 秩

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

llamafactory-cli train examples/train_lora/llama3_lora_sft.yaml

model_name_or_path: /root/.cache/modelscope/hub/models/LLM-Research/Meta-Llama-3-8B-Instruct
adapter_name_or_path: saves/llama3-8b/lora/sft # 加载微调后的 LoRA 适配器
template: llama3
infer_backend: huggingface # 推理后端
trust_remote_code: true

llamafactory-cli chat examples/inference/llama3_lora_sft.yaml

### Note: DO NOT use quantized model or quantization_bit when merging lora adapters
### model
model_name_or_path: /root/.cache/modelscope/hub/models/LLM-Research/Meta-Llama-3-8B-Instruct
adapter_name_or_path: saves/llama3-8b/lora/sft
template: llama3
trust_remote_code: true
### export
export_dir: output/llama3_lora_sft # 导出目录
export_size: 5 # 模型分片大小上限 (GB)
export_device: cpu # 导出时使用的设备
export_legacy_format: false # 不使用旧格式，优先 safetensors

llamafactory-cli export examples/merge_lora/llama3_lora_sft.yaml

LLaMA Factory 在国产 DCU 上微调 Llama 3 模型实战

LLaMA Factory 在国产 DCU 上微调 Llama 3 模型实战

一、环境准备与 LLaMA Factory 安装

1. 创建虚拟环境

2. 安装 DCU 特定深度学习库

3. 安装 LLaMA Factory

二、Llama 3 LoRA 微调实战

1. 微调配置文件解析 (llama3_lora_sft.yaml)

更多推荐文章

相关免费在线工具

2. 启动微调

3. 微调过程关键日志输出与解读

环境初始化与分布式设置

Tokenizer 与模型配置加载

数据集加载与预处理

基础模型权重加载与 LoRA 适配器设置

Trainer 初始化与训练循环

训练完成与模型保存

三、模型推理测试

1. 推理配置文件 (llama3_lora_sft.yaml for inference)

2. 启动推理

3. 推理过程关键日志输出与测试结果

模型加载

交互测试结果

四、模型导出

1. 导出配置文件 (llama3_lora_sft.yaml for export)

2. 启动导出

3. 导出过程关键日志输出

五、总结与展望

更多推荐文章

相关免费在线工具

LLaMA Factory 在国产 DCU 上微调 Llama 3 模型实战

LLaMA Factory 在国产 DCU 上微调 Llama 3 模型实战

一、环境准备与 LLaMA Factory 安装

1. 创建虚拟环境

2. 安装 DCU 特定深度学习库

3. 安装 LLaMA Factory

二、Llama 3 LoRA 微调实战

1. 微调配置文件解析 (llama3_lora_sft.yaml)

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2. 启动微调

3. 微调过程关键日志输出与解读

环境初始化与分布式设置

Tokenizer 与模型配置加载

数据集加载与预处理

基础模型权重加载与 LoRA 适配器设置

Trainer 初始化与训练循环

训练完成与模型保存

三、模型推理测试

1. 推理配置文件 (llama3_lora_sft.yaml for inference)

2. 启动推理

3. 推理过程关键日志输出与测试结果

模型加载

交互测试结果

四、模型导出

1. 导出配置文件 (llama3_lora_sft.yaml for export)

2. 启动导出

3. 导出过程关键日志输出

五、总结与展望

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具