实战 LLaMA Factory：在国产 DCU 上高效微调 Llama 3 模型 | 极客日志

PythonAI算法

实战 LLaMA Factory：在国产 DCU 上高效微调 Llama 3 模型

综述由AI生成在国产海光 DCU K100-AI 平台上，利用 LLaMA Factory 框架对 Llama 3-8B-Instruct 模型进行 LoRA 微调的完整流程。内容涵盖环境搭建、配置文件解析、训练日志解读、推理测试及模型导出。通过具体日志分析，展示了分布式训练设置、参数加载、损失函数变化及最终指标，为同类硬件上的大模型微调提供实践参考。

追风少年发布于 2026/4/5更新于 2026/5/2629 浏览

实战 LLaMA Factory：在国产 DCU 上高效微调 Llama 3 模型

本文基于前期实践，详细解读使用 LLaMA Factory 工具，在国产 DCU（海光 K100-AI）上对 Meta-Llama-3-8B-Instruct 模型进行 LoRA 微调、推理及导出的关键日志输出和核心测试信息。

一、前言

随着大语言模型（LLM）的飞速发展，如何在特定领域或任务上对预训练模型进行高效微调，已成为业界关注的焦点。本文将聚焦于在国产 DCU 平台上，利用 LLaMA Factory 对 Llama 3 模型进行 LoRA 微调的实践过程，并分享其中的关键步骤与经验。

二、环境准备与 LLaMA Factory 安装

本次实践的环境基于国产海光 DCU K100-AI，DTK 版本为 25.04。核心软件栈包括 Python 3.10 以及针对 DCU 优化的 PyTorch (torch==2.4.1+das.opt2.dtk2504) 及其相关深度学习库（如 lmslim, flash-attn, vllm, deepspeed 的特定版本）。

1. 创建虚拟环境

conda create -n dcu_llm_fine python=3.10
conda activate dcu_llm_fine

2. 安装 DCU 特定深度学习库

根据文档指引，从光合开发者社区下载并安装适配 DCU K100-AI (DTK 25.04, Python 3.10) 的 PyTorch, lmslim, flash-attn, vllm, deepspeed 等 whl 包。确保各组件版本严格对应。

3. 安装 LLaMA Factory

git clone http://developer.hpccube.com/codes/OpenDAS/llama-factory.git
cd /your_code_path/llama_factory
pip install -e ".[torch,metrics]"

注意：如遇包冲突，可尝试 pip install --no-deps -e .。

三、Llama 3 LoRA 微调实战

我们以 Meta-Llama-3-8B-Instruct 模型为例，采用 LoRA (Low-Rank Adaptation) 方法进行监督式微调 (SFT)。

1. 微调配置文件解析 (llama3_lora_sft.yaml)

以下是核心配置参数：

### model
model_name_or_path: /root/.cache/modelscope/hub/models/LLM-Research/Meta-Llama-3-8B-Instruct
# 模型路径
trust_remote_code: true
### method
stage: sft # 微调阶段：监督式微调
do_train: true
finetuning_type: lora # 微调方法：LoRA
lora_rank: 8 # LoRA 秩
lora_target:

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

llamafactory-cli train examples/train_lora/llama3_lora_sft.yaml

model_name_or_path: /root/.cache/modelscope/hub/models/LLM-Research/Meta-Llama-3-8B-Instruct
adapter_name_or_path: saves/llama3-8b/lora/sft # 加载微调后的 LoRA 适配器
template: llama3
infer_backend: huggingface # 推理后端
trust_remote_code: true

llamafactory-cli chat examples/inference/llama3_lora_sft.yaml

- 评析：输出中的 {{name}} 和 {{author}} 占位符，表明模型学习了微调数据 identity.json 中的模板格式。

#### 五、模型导出

将微调后的 LoRA 权重与基础模型合并，并导出为独立模型。

##### 1. 导出配置文件 (llama3_lora_sft.yaml for export)

```yaml
### Note: DO NOT use quantized model or quantization_bit when merging lora adapters
### model
model_name_or_path: /root/.cache/modelscope/hub/models/LLM-Research/Meta-Llama-3-8B-Instruct
adapter_name_or_path: saves/llama3-8b/lora/sft
template: llama3
trust_remote_code: true
### export
export_dir: output/llama3_lora_sft # 导出目录
export_size: 5 # 模型分片大小上限 (GB)
export_device: cpu # 导出时使用的设备
export_legacy_format: false # 不使用旧格式，优先 safetensors

llamafactory-cli export examples/merge_lora/llama3_lora_sft.yaml

实战 LLaMA Factory：在国产 DCU 上高效微调 Llama 3 模型

一、前言

二、环境准备与 LLaMA Factory 安装

1. 创建虚拟环境

2. 安装 DCU 特定深度学习库

3. 安装 LLaMA Factory

三、Llama 3 LoRA 微调实战

1. 微调配置文件解析 (llama3_lora_sft.yaml)

更多推荐文章

相关免费在线工具

2. 启动微调

3. 微调过程关键日志输出与解读

环境初始化与分布式设置 (日志时间：21:16:40 - 21:16:51)

Tokenizer 与模型配置加载 (日志时间：21:16:51 - 21:16:52)

数据集加载与预处理 (日志时间：21:16:52 - 21:17:01)

基础模型权重加载与 LoRA 适配器设置 (日志时间：21:17:01 - 21:17:16)

Trainer 初始化与训练循环 (日志时间：21:17:16 - 21:22:15)

训练完成与模型保存 (日志时间：15:22:15 - 15:22:17)

四、模型推理测试

1. 推理配置文件 (llama3_lora_sft.yaml for inference)

2. 启动推理

3. 推理过程关键日志输出与测试结果

模型加载 (日志时间：17:30:16 - 17:31:18)

交互测试结果

2. 启动导出

3. 导出过程关键日志输出 (日志时间：18:06:54 - 18:08:22)

六、总结与展望

更多推荐文章

相关免费在线工具

实战 LLaMA Factory：在国产 DCU 上高效微调 Llama 3 模型

一、前言

二、环境准备与 LLaMA Factory 安装

1. 创建虚拟环境

2. 安装 DCU 特定深度学习库

3. 安装 LLaMA Factory

三、Llama 3 LoRA 微调实战

1. 微调配置文件解析 (llama3_lora_sft.yaml)

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2. 启动微调

3. 微调过程关键日志输出与解读

环境初始化与分布式设置 (日志时间：21:16:40 - 21:16:51)

Tokenizer 与模型配置加载 (日志时间：21:16:51 - 21:16:52)

数据集加载与预处理 (日志时间：21:16:52 - 21:17:01)

基础模型权重加载与 LoRA 适配器设置 (日志时间：21:17:01 - 21:17:16)

Trainer 初始化与训练循环 (日志时间：21:17:16 - 21:22:15)

训练完成与模型保存 (日志时间：15:22:15 - 15:22:17)

四、模型推理测试

1. 推理配置文件 (llama3_lora_sft.yaml for inference)

2. 启动推理

3. 推理过程关键日志输出与测试结果

模型加载 (日志时间：17:30:16 - 17:31:18)

交互测试结果

2. 启动导出

3. 导出过程关键日志输出 (日志时间：18:06:54 - 18:08:22)

六、总结与展望

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具