本文主要讲述在 Docker 环境下使用 LLaMA-Factory 训练和推理模型。
拉取镜像
首先需要启动 Docker,然后在终端中输入:
docker run -tid --gpus all -p 8000:8000 --name LLM -e NVIDIA_DRIVER_CAPABILITIES=compute,utility -e NVIDIA_VISIBLE_DEVICES=all --privileged=true ubuntu:20.04
该命令启动了一个 Ubuntu 20.04 容器,使用所有可用的 GPU,主机的 8000 端口映射到容器的 8000 端口,容器命名为 LLM,以特权模式运行。
进入容器
docker exec -it LLM /bin/bash
此时仅将 GPU 映射到了 Docker 中,尚未安装驱动。
安装 CUDA 驱动
wget https://developer.download.nvidia.com/compute/cuda/12.6.2/local_installers/cuda_12.6.2_560.35.03_linux.run
sh cuda_12.6.2_560.35.03_linux.run
默认安装即可。安装后若提示 nvcc: command not found,说明系统的 PATH 环境变量未包含 /usr/local/cuda-12.6/bin。
编辑环境变量:
vim ~/.bashrc
加入以下两行:
export PATH=/usr/local/cuda-12.6/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-12.6/lib64:$LD_LIBRARY_PATH
重新加载配置:
source ~/.bashrc
验证成功。
Docker 内安装 Python
Docker 拉取的 Ubuntu 20.04 可能缺少基础工具,需通过 apt-get install 安装 wget 等。
下载 Python 源码包(以 3.10.6 为例):
wget https://www.python.org/ftp/python/3.10.6/Python-3.10.6.tgz
tar -zxvf Python-3.10.6.tgz
cd Python-3.10.6
sudo ./configure
编译并安装:
sudo make
sudo make test
sudo make install
LLaMA-Factory 部署
安装框架
git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
LLaMA-Factory
pip install -e


