LLaMA-Factory 全流程模型训练与推理
本文介绍在 Docker 环境下使用 LLaMA-Factory 进行模型训练与推理的完整流程。
1. 拉取镜像
首先需要启动 Docker,然后在终端中输入:
docker run -tid --gpus all -p 8000:8000 --name LLM -e NVIDIA_DRIVER_CAPABILITIES=compute,utility -e NVIDIA_VISIBLE_DEVICES=all --privileged=true ubuntu:20.04
- 这个命令启动了一个 Ubuntu 20.04 容器,使用所有可用的 GPU
- 主机的 8000 端口映射到容器的 8000 端口
- 容器命名为
LLM,以特权模式运行容器
进入容器
docker exec -it LLM /bin/bash

但此时仅将 GPU 映射到了 Docker 里,尚未安装驱动。
wget https://developer.download.nvidia.com/compute/cuda/12.6.2/local_installers/cuda_12.6.2_560.35.03_linux.run
然后运行程序:
sh cuda_12.6.2_560.35.03_linux.run
随后会生成一些指引,默认安装即可。
root@82c2f2b69781:/home# ls /usr/local/ | grep cuda
cuda cuda-12.6
root@82c2f2b69781:/home# nvcc -V
bash: nvcc: command not found
这说明系统的 PATH 环境变量没有包含 /usr/local/cuda-12.6/bin。
编辑环境变量 vim ~/.bashrc 加入下面两行:
export PATH=/usr/local/cuda-12.6/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-12.6/lib64:$LD_LIBRARY_PATH
然后重新运行以下命令生效:
source ~/.bashrc
验证成功:
root@82c2f2b69781:/home# echo $PATH
/usr/local/cuda-12.6/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin










