一、安装 LLaMA-Factory
1. Python 环境安装
安装成功后,输入 python 能出现版本信息表示安装成功。
2. CUDA 和 PyTorch 安装
2.1 PyTorch 安装
查看 PyTorch 与 CUDA 对应的版本,然后进行安装。PyTorch 官网地址:PyTorch
在终端中输入以下指令安装 PyTorch(以 CUDA 11.8 为例):
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
建议选用 CUDA 11.8 版本以确保兼容性。
到此 PyTorch 安装结束。
2.2 CUDA 安装
找到 CUDA 的历史版本。链接地址:CUDA Toolkit Archive | NVIDIA Developer
找到目标安装包下载安装。安装成功后在终端中输入:nvcc --version
如显示版本号,表示 CUDA 安装成功。
2.3 校验
校验 CUDA 和 PyTorch 是否匹配成功。
终端中输入:
import torch
print(torch.cuda.current_device())
print(torch.cuda.get_device_name(0))
print(torch.__version__)
如果出现异常错误,可能是环境没有处理好,需自行检查。
3. 下载 LLaMA-Factory 的 Git 仓库
git clone https://github.com/hiyouga/LLaMA-Factory.git
进入刚下载的 LLaMA-Factory 文件夹中,输入指令:
pip install -e '.[torch,metrics]'
验证安装是否成功。输入指令:llamafactory-cli version
如出现版本号表示安装成功。
二、下载模型
可从魔搭社区下载模型。示例选用 Qwen2.5-0.5B-Instruct 模型。
使用 Git 下载命令:
git clone https://www.modelscope.cn/Qwen/Qwen2.5-0.5B-Instruct.git
三、部署大模型
启动 llama-factory 的 WebUI,输入指令:
llamafactory-cli webui
注意:必须在 LLaMA-Factory 仓库根目录中输入该指令。
启动后的界面会显示服务地址。切换页面到部署模型的页面。
点击 Chat,模型名称从下拉列表中选择 Qwen2.5-0.5B-Instruct。

