LLaMA-Factory 全流程训练模型
本文主要讲述在 docker 下使用 LLaMA-Factory 训练推理模型。
拉取镜像
首先需要启动 docker,然后在终端中输入:
docker run -tid --gpus all -p 8000:8000 --name LLM -e NVIDIA_DRIVER_CAPABILITIES=compute,utility -e NVIDIA_VISIBLE_DEVICES=all --privileged=true ubuntu:20.04
- 这个命令启动了一个 Ubuntu 20.04 容器,使用所有可用的 GPU
- 主机的 8000 端口映射到容器的 8000 端口
- 容器命名为
LLM,以特权模式运行容器
进入容器
docker exec -it LLM /bin/bash
安装 CUDA 驱动
docker 拉取的 Ubuntu 20.04 没有任何配置,比如 wget 等命令需要自己通过 apt-get install 安装。目前只将 GPU 映射到了 docker 里,还没有安装驱动。
wget https://developer.download.nvidia.com/compute/cuda/12.6.2/local_installers/cuda_12.6.2_560.35.03_linux.run
sh cuda_12.6.2_560.35.03_linux.run
随后会生成一些指引,默认安装就行。
root@82c2f2b69781:/home# ls /usr/local/ | grep cuda
cuda cuda-12.6 root@82c2f2b69781:/home# nvcc -V
bash: nvcc: command not found
这说明系统的 PATH 环境变量没有包含 /usr/local/cuda-12.6/bin。
编辑环境变量 vim ~/.bashrc 加入下面两行:
export PATH=/usr/local/cuda-12.6/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-12.6/lib64:$LD_LIBRARY_PATH
然后重新运行一下就生效了:source ~/.bashrc。
验证成功。
root@82c2f2b69781:/home# echo $PATH
/usr/local/cuda-12.6/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin
Docker 内安装 Python
docker 拉取的 Ubuntu 20.04 没有任何配置,比如 wget 等命令需要自己通过 apt-get install 安装。
这是 python 源码包的地址(3.10.6 为例):Index of /ftp/python/3.10.6/
wget https://www.python.org/ftp/python/3.10.6/Python-3.10.6.tgz
tar -zxvf Python-3.10.6.tgz
Python-3.10.6
./configure


