双显卡环境下 LLaMA-Factory 大模型微调环境搭建 | 极客日志

PythonAI算法

双显卡环境下 LLaMA-Factory 大模型微调环境搭建

综述由AI生成详细记录了在双显卡环境下搭建 LLaMA-Factory 大模型微调环境的完整步骤。内容包括环境检测、CUDA 与 PyTorch 版本匹配、llama.cpp 及 HuggingFace 工具安装、核心依赖库配置、Flash-Attention 与 Unsloth 等加速方案部署，以及训练前的测试与微调实战。针对 Windows 平台常见的依赖冲突、环境变量设置及显存优化问题提供了具体解决方案。

星云发布于 2026/4/6更新于 2026/5/2232 浏览

查看环境

CPU：R7 9800X3D
RAM：96GB（5600）
GPU：RTX 4060Ti 16GB * 2

nvidia-smi

我的显卡是 RTX 4060Ti，CUDA 最高支持的版本为 12.9，理论上有 11.8、12.6、12.8 三个版本可以使用，但是在实际中，11.8、12.6 是不支持 50 系显卡的，所以需要使用 12.8。

安装环境

根据硬件环境确定了软件环境。选择环境为 Python3.12.10 + CUDA12.8 + PyTorch2.7.0。

在安装之前需要先安装 Anaconda、Python 和 Visual Studio 的 C++ 桌面开发环境。

安装 llama.cpp

下载（需要先安装 CUDA 和 python）：安装 curl（使用联网下载模型，可选）

git clone https://github.com/microsoft/vcpkg.git
cd vcpkg
.ootstrap-vcpkg.bat
.
vcpkg install curl:x64-windows

需手动新建模型下载目录 C:\Users\Administrator\AppData\Local\llama.cpp。

git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
cmake -B build -DGGML_CUDA=ON -DLLAMA_CURL=OFF
cmake --build build --config Release

-B build：指定构建目录为 ./build。
-DGGML_CUDA=ON：启用 CUDA 支持（需已安装 CUDA 工具包）。
-DLLAMA_CURL=ON：启用 CURL 支持（需已安装 curl）。

安装依赖：

# 也可以手动安装 torch 之后，再安装剩下的依赖
pip install -r requirements.txt

进入 build\bin\Release 目录开始使用 llama。

安装 huggingface-cli

用于下载模型。

pip install -U huggingface_hub

设置环境变量：

变量名	说明
HF_HOME	模型保存路径
HF_ENDPOINT	从什么地方下载模型：使用国内镜像站：https://hf-mirror.com

下载指令如下：

huggingface-cli download --resume-download deepseek-ai/DeepSeek-R1 --local-dir e:/model --local-dir-use-symlinks False

--repo-type dataset 下载数据集
--resume-download 已弃用
--local-dir 保存路径

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

huggingface-cli download deepseek-ai/DeepSeek-R1

git clone https://github.com/hiyouga/LLaMA-Factory.git

conda create -n llama_factory python=3.12
conda activate llama_factory
cd LLaMA-Factory
pip install -e .[metrics]

名称	描述
torch	开源深度学习框架 PyTorch，广泛用于机器学习和人工智能研究中。
torch-npu	PyTorch 的昇腾设备兼容包。
metrics	用于评估和监控机器学习模型性能。
deepspeed	提供了分布式训练所需的零冗余优化器。
bitsandbytes	用于大型语言模型量化。
hqq	用于大型语言模型量化。
eetq	用于大型语言模型量化。
gptq	用于加载 GPTQ 量化模型。
awq	用于加载 AWQ 量化模型。
aqlm	用于加载 AQLM 量化模型。
vllm	提供了高速并发的模型推理服务。
galore	提供了高效全参微调算法。
badam	提供了高效全参微调算法。
qwen	提供了加载 Qwen v1 模型所需的包。
modelscope	魔搭社区，提供了预训练模型和数据集的下载途径。
swanlab	开源训练跟踪工具 SwanLab，用于记录与可视化训练过程
dev	用于 LLaMA Factory 开发维护。

pip3 install torch==2.7.0 torchvision torchaudio --index-url https://download.pytorch.org/whl/cu128

nvcc --version

pip install bitsandbytes

pip install https://github.com/jllllll/bitsandbytes-windows-webui/releases/download/wheels/bitsandbytes-0.41.2.post2-py3-none-win_amd64.whl

git clone https://github.com/timdettmers/bitsandbytes.git
cd bitsandbytes
setCUDA_VERSION=128
make cuda12x python setup.py install

cmake -B . -DCOMPUTE_BACKEND=cuda -S .
cmake --build .
pip install .

pip debug --verbose

pip install E:\wheels\flash_attn-2.7.4.post1+cu124torch2.6.0cxx11abiFALSE-cp312-cp312-win_amd64.whl

pip install unsloth

模型参数	QLoRA (4-bit) VRAM	LoRA (16-bit) VRAM
3B	3.5 GB	8 GB
7B	5 GB	19 GB
8B	6 GB	22 GB
9B	6.5 GB	24 GB
11B	7.5 GB	29 GB
14B	8.5 GB	33 GB
27B	22 GB	64 GB
32B	26 GB	76 GB
40B	30 GB	96 GB
70B	41 GB	164 GB
81B	48 GB	192 GB
90B	53 GB	212 GB
405B	237 GB	950 GB

import os
import torch
os.environ["KMP_DUPLICATE_LIB_OK"]="TRUE"
print("PyTorch Version:", torch.__version__)
print("CUDA Available:", torch.cuda.is_available())
if torch.cuda.is_available():
    print("CUDA Version:", torch.version.cuda)
    print("Current CUDA Device Index:", torch.cuda.current_device())
    print("Current CUDA Device Name:", torch.cuda.get_device_name(0))
else:
    print("CUDA is not available on this system.")

llamafactory-cli train -h

set USE_LIBUV=0 && llamafactory-cli train -h

set CUDA_VISIBLE_DEVICES=0,1

llamafactory-cli webchat --model_name_or_path /media/codingma/LLM/llama3/Meta-Llama-3-8B-Instruct --template llama3
llamafactory-cli webchat E:hf\hub\LLaMA-Factory\examples\inference\llama3.yaml

pip install deepspeed

pip uninstall bitsandbytes
pip install bitsandbytes-windows

pip uninstall bitsandbytes
pip install bitsandbytes-cuda128
pip uninstall bitsandbytes-cuda128
pip install bitsandbytes

''' 需要的依赖 torch transformers datasets peft bitsandbytes '''
# 测试模型是否可用
from transformers import AutoTokenizer, AutoModelForCausalLM, TrainingArguments

# 加载模型 Hugging face 提前下载
model_name = r'E:\hf\DeepSeekR1DistillQwen1.5B'
tokenizer = AutoTokenizer.from_pretrained(model_name)

# 模型加载成功之后注释 model 代码，否则每次都占用内存 （如果内存不够，可以使用 device_map='auto'）
model = AutoModelForCausalLM.from_pretrained(model_name, device_map='auto', trust_remote_code=True)

for name, param in model.named_parameters():
    if param.is_meta:
        raise ValueError(f"Parameter {name} is in meta device.")
print('---------------模型加载成功-------------')

# 制作数据集
from data_prepare import samples
import json
with open('datasets.jsonl', 'w', encoding='utf-8') as f:
    for s in samples:
        json_line = json.dumps(s, ensure_ascii=False)
        f.write(json_line + '\n')
else:
    print('-------数据集制作完成------')

# 准备训练集和测集
from datasets import load_dataset
dataset = load_dataset('json', data_files='datasets.jsonl')

双显卡环境下 LLaMA-Factory 大模型微调环境搭建

查看环境

安装环境

安装 llama.cpp

安装 huggingface-cli

更多推荐文章

相关免费在线工具

下载 LLaMa-factory

安装 LLaMa-factory

安装 CUDA12.8+PyTorch2.7.0

安装 bitsandbytes

加速

安装 flash-attention

Unsloth 安装

Liger Kernel 安装

测试

测试 PyTorch 和 CUDA

测试依赖库

测试环境是否正常

训练

WebUI 微调

代码微调

更多推荐文章

相关免费在线工具

双显卡环境下 LLaMA-Factory 大模型微调环境搭建

查看环境

安装环境

安装 llama.cpp

安装 huggingface-cli

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

下载 LLaMa-factory

安装 LLaMa-factory

安装 CUDA12.8+PyTorch2.7.0

安装 bitsandbytes

加速

安装 flash-attention

Unsloth 安装

Liger Kernel 安装

测试

测试 PyTorch 和 CUDA

测试依赖库

测试环境是否正常

训练

WebUI 微调

代码微调

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具