LLaMA-Factory 全流程模型训练与推理 | 极客日志

Python

LLaMA-Factory 全流程模型训练与推理

综述由AI生成LLaMA-Factory 全流程模型训练与推理介绍在 Docker 环境下使用 LLaMA-Factory 进行模型训练与推理的完整流程。拉取镜像首先需要启动 Docker，然后在终端中输入：这个命令启动了一个 Ubuntu 20.04 容器，使用所有可用的 GPU 主机的 8000 端口映射到容器的 8000 端口容器命名为 LLM，以特权模式运行容器 **进入容器** !f7b…

灭霸发布于 2026/4/6更新于 2026/5/24347 浏览

LLaMA-Factory 全流程模型训练与推理

本文介绍在 Docker 环境下使用 LLaMA-Factory 进行模型训练与推理的完整流程。

1. 拉取镜像

首先需要启动 Docker，然后在终端中输入：

docker run -tid --gpus all -p 8000:8000 --name LLM -e NVIDIA_DRIVER_CAPABILITIES=compute,utility -e NVIDIA_VISIBLE_DEVICES=all --privileged=true ubuntu:20.04

这个命令启动了一个 Ubuntu 20.04 容器，使用所有可用的 GPU
主机的 8000 端口映射到容器的 8000 端口
容器命名为 LLM，以特权模式运行容器

进入容器

docker exec -it LLM /bin/bash

但此时仅将 GPU 映射到了 Docker 里，尚未安装驱动。

wget https://developer.download.nvidia.com/compute/cuda/12.6.2/local_installers/cuda_12.6.2_560.35.03_linux.run

然后运行程序：

sh cuda_12.6.2_560.35.03_linux.run

随后会生成一些指引，默认安装即可。

root@82c2f2b69781:/home# ls /usr/local/ | grep cuda
cuda cuda-12.6
root@82c2f2b69781:/home# nvcc -V
bash: nvcc: command not found

这说明系统的 PATH 环境变量没有包含 /usr/local/cuda-12.6/bin。

编辑环境变量 vim ~/.bashrc 加入下面两行：

export PATH=/usr/local/cuda-12.6/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-12.6/lib64:$LD_LIBRARY_PATH

然后重新运行以下命令生效：

source ~/.bashrc

验证成功：

root@82c2f2b69781:/home# echo $PATH
/usr/local/cuda-12.6/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin

相关免费在线工具

curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online
HTML转Markdown
将 HTML 片段转为 GitHub Flavored Markdown，支持标题、列表、链接、代码块与表格等；浏览器内处理，可链接预填。在线工具，HTML转Markdown在线工具，online
JSON 压缩
通过删除不必要的空白来缩小和压缩JSON。在线工具，JSON 压缩在线工具，online

wget https://www.python.org/ftp/python/3.10.6/Python-3.10.6.tgz

tar -zxvf Python-3.10.6.tgz
cd Python-3.10.6
sudo ./configure

sudo make
sudo make test
sudo make install

git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e ".[torch,metrics]"

export ASCEND_HOME_PATH=/usr/local/Ascend/ascend-toolkit/latest

git lfs install
git clone https://www.modelscope.cn/Qwen/Qwen2.5-1.5B-Instruct.git

### model
model_name_or_path: /home/Qwen/Qwen2.5-1.5B-Instruct
### method
stage: sft
do_train: true
finetuning_type: freeze
# lora_target: all
dataset: alpaca_zh_demo
template: qwen
cutoff_len: 10240
max_samples: 1000
overwrite_cache: true
preprocessing_num_workers: 16
### output
output_dir: output
logging_steps: 10
save_steps: 500
plot_loss: true
overwrite_output_dir: true
### train
per_device_train_batch_size: 1
gradient_accumulation_steps: 2
learning_rate: 1.0e-4
num_train_epochs: 3.0
lr_scheduler_type: cosine
warmup_ratio: 0.1
fp16: true
ddp_timeout: 180000000
### eval
val_size: 0.1
per_device_eval_batch_size: 1
eval_strategy: steps
eval_steps: 500

llamafactory-cli train examples/train.yaml

***** train metrics *****
epoch = 3.0
total_flos = 2906404GF
train_loss = 1.0846
train_runtime = 0:04:15.80
train_samples_per_second = 10.555
train_steps_per_second = 5.277

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

# 我们的模型输出路径
model_name_or_path = "/home/LLaMA-Factory/output"
model = AutoModelForCausalLM.from_pretrained(model_name_or_path)
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)
device = "cuda" if torch.cuda.is_available() else "cpu"
model.to(device)

prompt = "列出一个应该在野营应急包中的 7 件物品。"
inputs = tokenizer(prompt, return_tensors="pt").to(device)
with torch.no_grad():
    outputs = model.generate(inputs.input_ids, max_length=50)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)

llamafactory-cli eval --task mmlu --model_name_or_path /home/Qwen/Qwen2.5-1.5B-Instruct --template qwen --batch_size 1 --n_shot 5

model_name_or_path: /home/Qwen/Qwen2.5-1.5B-Instruct
template: qwen
do_sample: false

llamafactory-cli chat infer.yaml

LLaMA-Factory 全流程模型训练与推理

LLaMA-Factory 全流程模型训练与推理

1. 拉取镜像

更多推荐文章

相关免费在线工具

2. Docker 内安装 Python

3. 安装 LLaMA-Factory

更多推荐文章

相关免费在线工具

LLaMA-Factory 全流程模型训练与推理

LLaMA-Factory 全流程模型训练与推理

1. 拉取镜像

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2. Docker 内安装 Python

3. 安装 LLaMA-Factory

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具