5060Ti双显卡+LLaMA-factory大模型微调环境搭建

5060Ti双显卡+LLaMA-factory大模型微调环境搭建

参考链接

查看环境

CPU:R7 9800X3D
RAM:96GB(5600)
GPU:5060Ti 16GB * 2

nvidia-smi 
在这里插入图片描述


我的显卡是5060TiCUDA最高支持的版本为12.9,理论上有11.8、12.6、12.8 三个版本可以以使用,但是在实际中,11.8、12.6是不支持50系显卡的,所以需要使用12.8

在这里插入图片描述

安装环境

根据硬件环境确定了软件环境
选择环境为Python3.12.10+CUDA12.8+PyTorch2.7.0

在安装之前需要先安装AnacondapythonVisual StudioC++桌面开发环境

安装llama.cpp

下载(需要先安装 CUDApython ):
安装 curl(使用联网下载模型,可选)

git clone https://github.com/microsoft/vcpkg.git cd vcpkg .\bootstrap-vcpkg.bat .\vcpkg install curl:x64-windows 

需手动新建模型下载目录C:\Users\Administrator\AppData\Local\llama.cpp

git clone https://github.com/ggerganov/llama.cpp.git cd llama.cpp cmake -B build -DGGML_CUDA=ON -DLLAMA_CURL=OFF cmake --build build --config Release 

-B build:指定构建目录为 ./build
-DGGML_CUDA=ON:启用 CUDA 支持(需已安装 CUDA 工具包)。
-DLLAMA_CURL=ON:启用 CURL 支持(需已安装 curl
安装依赖:

# 也可以手动安装 torch 之后,再安装剩下的依赖 pip install -r requirements.txt 

进入build\bin\Release目录开始使用llama

安装huggingface-cli

用于下载模型

pip install -U huggingface_hub 

设置环境变量:

在这里插入图片描述
变量名说明
HF_HOME模型保存路径
HF_ENDPOINT从什么地方下载模型:使用国内镜像站:https://hf-mirror.com

下载指令如下:

huggingface-cli download --resume-download deepseek-ai/DeepSeek-R1 --local-dir e:/model --local-dir-use-symlinks False 

--repo-type dataset 下载数据集
--resume-download已弃用
--local-dir保存路径
deepseek-ai/DeepSeek-R1为下载的模型
--local-dir-use-symlinks False 取消软连接,Windows中没有软链接

可以简化为:

huggingface-cli download deepseek-ai/DeepSeek-R1 
在这里插入图片描述

下载LLaMa-factory:

git clone https://github.com/hiyouga/LLaMA-Factory.git 

安装LLaMa-factory:

如果出现环境冲突,请尝试使用pip install --no-deps -e解决

conda create -n llama_factory python=3.12 conda activate llama_factory cd LLaMA-Factory pip install -e .[metrics]

这里指定metrics参数是安装jieba分词库等,方面后续可能要训练或者微调中文数据集。
可选的额外依赖项:torch、torch-npu、metrics、deepspeed、liger-kernel、bitsandbytes、hqq、eetq、gptq、aqlm、vllm、sglang、galore、apollo、badam、adam-mini、qwen、minicpm_v、modelscope、openmind、swanlab、quality

名称描述
torch开源深度学习框架 PyTorch,广泛用于机器学习和人工智能研究中。
torch-npuPyTorch 的昇腾设备兼容包。
metrics用于评估和监控机器学习模型性能。
deepspeed提供了分布式训练所需的零冗余优化器。
bitsandbytes用于大型语言模型量化。
hqq用于大型语言模型量化。
eetq用于大型语言模型量化。
gptq用于加载 GPTQ 量化模型。
awq用于加载 AWQ 量化模型。
aqlm用于加载 AQLM 量化模型。
vllm提供了高速并发的模型推理服务。
galore提供了高效全参微调算法。
badam提供了高效全参微调算法。
qwen提供了加载 Qwen v1 模型所需的包。
modelscope魔搭社区,提供了预训练模型和数据集的下载途径。
swanlab开源训练跟踪工具 SwanLab,用于记录与可视化训练过程
dev用于 LLaMA Factory 开发维护。

安装好后就可以使用llamafactory-cli webui打开web页面了

如果出现找不到llamafactory-cli,是没有将该路径加入环境变量,找到程序所在路径,加入path环境变量即可

安装CUDA12.8+PyTorch2.7.0

因为上述方式似乎默认安装了一个CPU版本的pytorch,但是版本不是我们想要的,直接安装覆盖即可。具体方法根据PyTorch相应版本提供的安装方式进行安装

pip3 installtorch==2.7.0 torchvision torchaudio --index-url https://download.pytorch.org/whl/cu128 

CUDA下载链接:https://developer.nvidia.com/cuda-toolkit-archive
选择适合的版本进行安装,安装好后通过nvcc --version查看是否安装成功,如果成功输出版本号则安装成功

nvcc --version 

安装bitsandbytes

如果要在 Windows 平台上开启量化 LoRA(QLoRA),需要安装 bitsandbytes
使用pip安装

pip install bitsandbytes 

也可以使用已经编译好的,支持 CUDA 11.1 到 12.2, 根据 CUDA 版本情况选择适合的发布版本。
https://github.com/jllllll/bitsandbytes-windows-webui/releases/tag/wheels

pip install https://github.com/jllllll/bitsandbytes-windows-webui/releases/download/wheels/bitsandbytes-0.41.2.post2-py3-none-win_amd64.whl 

如果上面的方法都不行,就使用源码安装

git clone https://github.com/timdettmers/bitsandbytes.git cd bitsandbytes setCUDA_VERSION=128make cuda12x python setup.py install

windows中如果无法使用make可以使用cmake

cmake -B . -DCOMPUTE_BACKEND=cuda -S . cmake --build . pip install.

Windowsmake下载地址:https://gnuwin32.sourceforge.net/packages/make.html

加速

LLaMA-Factory 支持多种加速技术,包括:FlashAttentionUnslothLiger Kernel
三种方法选择其中一个就可以了,或者不安装。

安装flash-attention

FlashAttention 能够加快注意力机制的运算速度,同时减少对内存的使用。
检查环境:

pip debug --verbose 
在这里插入图片描述

编译好的下载链接:https://github.com/bdashore3/flash-attention/releases

在这里插入图片描述


由于没有完全匹配的版本,所以选择了最接近的一个版本
使用pip安装

pip install E:\wheels\flash_attn-2.7.4.post1+cu124torch2.6.0cxx11abiFALSE-cp312-cp312-win_amd64.whl 

如果无法使用可能需要源码编译安装https://huggingface.co/lldacing/flash-attention-windows-wheel

Unsloth安装

Unsloth 框架支持 Llama, Mistral, Phi-3, Gemma, Yi, DeepSeek, Qwen等大语言模型并且支持 4-bit16-bitQLoRA/LoRA 微调,该框架在提高运算速度的同时还减少了显存占用。
需要先安装xformers, torch, BitsandBytestriton,并且只支持NVIDIA显卡

pip install unsloth 

显存和参数关系

模型参数QLoRA (4-bit) VRAMLoRA (16-bit) VRAM
3B3.5 GB8 GB
7B5 GB19 GB
8B6 GB22 GB
9B6.5 GB24 GB
11B7.5 GB29 GB
14B8.5 GB33 GB
27B22 GB64 GB
32B26 GB76 GB
40B30 GB96 GB
70B41 GB164 GB
81B48 GB192 GB
90B53 GB212 GB
405B237 GB950 GB

Liger Kernel安装

Liger Kernel是一个大语言模型训练的性能优化框架, 可有效地提高吞吐量并减少内存占用。

测试

测试PyTorch和CUDA

编写一个测试程序

import os import torch os.environ["KMP_DUPLICATE_LIB_OK"]="TRUE"print("PyTorch Version:", torch.__version__)print("CUDA Available:", torch.cuda.is_available())if torch.cuda.is_available():print("CUDA Version:", torch.version.cuda)print("Current CUDA Device Index:", torch.cuda.current_device())print("Current CUDA Device Name:", torch.cuda.get_device_name(0))else:print("CUDA is not available on this system.")

运行:

在这里插入图片描述

测试依赖库

对基础安装的环境做一下校验,输入以下命令获取训练相关的参数指导, 否则说明库还没有安装成功

llamafactory-cli train -h 
在这里插入图片描述


Windows中如果报libuv的错,则使用以下命令

setUSE_LIBUV=0&& llamafactory-cli train -h 
在这里插入图片描述


双显卡在Windows平台会报错,需要禁用一张显卡,或者使用以下环境变量试试

setCUDA_VISIBLE_DEVICES=0,1

测试环境是否正常

windows似乎不支持CUDA_VISIBLE_DEVICES=0指定显卡,并且也不支持”\“换行console,分别对应修改:
对于第一个问题,一种方式是修改环境变量,在用户变量或者系统变量加一行就可以。CUDA_VISIBLE_DEVICES 0

llamafactory-cli webchat --model_name_or_path /media/codingma/LLM/llama3/Meta-Llama-3-8B-Instruct --template llama3 llamafactory-cli webchat E:hf\hub\LLaMA-Factory\examples\inference\llama3.yaml 

训练

安装deepseep

pip install deepspeed 

Windows平台下在模型训练的过程中出现 “RuntimeError: CUDA Setup failed despite GPU being available” 的错误,导致训练中断。

处理方法1:

pip uninstall bitsandbytes pip install bitsandbytes-windows 

执行上述的命令如果没有解决问题,试一下一下方法:

pip uninstall bitsandbytes pip install bitsandbytes-cuda128 pip uninstall bitsandbytes-cuda128 pip install bitsandbytes 

在运行过程中所有的错误无非两种情况造成的。

  • 情况1:安装环境出现冲突(包的依赖出现冲突或者CUDA的版本没有安装对);
  • 情况2:权限不够(sudo运行或者管理员下运行即可解决,一般报错信息中会出现permission字样)

webui微调

参考链接1
参考链接2
参考链接3

代码微调

''' 需要的依赖 torch transformers datasets peft bitsandbytes '''# 测试模型是否可用from transformers import AutoTokenizer, AutoModelForCausalLM, TrainingArguments # 加载模型 Hugging face提前下载 model_name =r'E:\hf\DeepSeekR1DistillQwen1.5B' tokenizer = AutoTokenizer.from_pretrained(model_name)# 模型加载成功之后注释model代码,否则每次都占用内存 (如果内存不够,可以使用device_map='auto') model = AutoModelForCausalLM.from_pretrained(model_name,device_map='auto',trust_remote_code=True)for name, param in model.named_parameters():if param.is_meta:raise ValueError(f"Parameter { name} is in meta device.")print('---------------模型加载成功-------------')# 制作数据集from data_prepare import samples import json withopen('datasets.jsonl','w',encoding='utf-8')as f:for s in samples: json_line = json.dumps(s,ensure_ascii=False) f.write(json_line +'\n')else:print('-------数据集制作完成------')# 准备训练集和测集from datasets import load_dataset dataset = load_dataset('json',data_files

Read more

Qwen3-Embedding-4B推荐方案:llama.cpp集成部署教程

Qwen3-Embedding-4B推荐方案:llama.cpp集成部署教程 1. 引言 1.1 通义千问3-Embedding-4B:面向未来的文本向量化模型 Qwen3-Embedding-4B 是阿里云通义千问(Qwen)系列中专为「语义向量化」设计的中等规模双塔模型,于2025年8月正式开源。该模型以4B参数量、2560维输出向量、支持32k长文本上下文为核心亮点,定位为兼顾性能与效率的企业级语义理解基础设施组件。 其在MTEB(Multilingual Task Evaluation Benchmark)三大子集上表现优异:英文74.60、中文68.09、代码73.50,均优于同尺寸开源embedding模型。更重要的是,它支持119种自然语言及主流编程语言,在跨语言检索、bitext挖掘等任务中达到官方评估S级水平。 得益于Apache 2.0开源协议,Qwen3-Embedding-4B可直接用于商业场景,无需额外授权,极大降低了企业构建多语言知识库、智能客服、文档去重系统的门槛。 1.2 部署目标:轻量化 + 高性能

Llama-3.2V-11B-cot从零开始教程:GPU算力适配的视觉语言模型快速上手

Llama-3.2V-11B-cot从零开始教程:GPU算力适配的视觉语言模型快速上手 1. 认识Llama-3.2V-11B-cot Llama-3.2V-11B-cot是一个强大的视觉语言模型,它能同时理解图片内容和进行逻辑推理。想象一下,你给它一张照片,它不仅能告诉你照片里有什么,还能像人类一样分析照片背后的故事和逻辑关系。 这个模型基于Meta公司开源的Llama 3.2 Vision架构,拥有110亿参数,特别擅长处理需要分步推理的视觉任务。比如你给它一张天气预报图,它不仅能识别图中的天气符号,还能推断出未来几天的天气变化趋势。 2. 环境准备与安装 2.1 硬件要求 要运行这个模型,你需要准备: * 支持CUDA的NVIDIA显卡(建议RTX 3090或更高) * 至少24GB显存 * 16GB以上系统内存 * 50GB可用磁盘空间 2.2 软件依赖 首先确保你的系统已经安装: * Python 3.8或更高版本 * CUDA 11.7/11.8 * cuDNN 8.x

【优质开源项目】AIGC开源推荐-全球情报监控平台worldmonitor

【优质开源项目】AIGC开源推荐-全球情报监控平台worldmonitor

1.概述 World Monitor 是一个开源的实时情报/监测仪表盘,聚合多类数据源(新闻、地理/卫星、航运/空中、财经、威胁情报等),提供交互式地理视图、AI 摘要、事件聚合与报警,支持 Web / PWA / Tauri 桌面三种运行方式,并可通过变体(WORLD / TECH / FINANCE)切换功能集。 2. 总体技术架构(分层视角) 客户端层(Browser / PWA / Tauri desktop) * • React + TypeScript + Vite 构建。 * • 地图/可视化:deck.gl(WebGL 3D globe)、MapLibre GL、D3

llama.cpp重大更新:自带Web UI,性能超越Ollama,本地大模型部署新选择!

llama.cpp重大更新:自带Web UI,性能超越Ollama,本地大模型部署新选择!

Ollama 背后执行推理的核心技术其实是由 llama.cpp 承担的,GGUF 模型格式也是由 llama.cpp 的作者所开发。 现在 llama.cpp 迎来重大更新,它也有了自己的 Web UI,我测试了安装部署和自行打包,很多地方确实比 Ollama 还有方便好用。 官方介绍,优势如下: * 完全免费、开源且由社区驱动 * 在所有硬件上表现出色 * 高级上下文和前缀缓存 * 并行和远程用户支持 * 极其轻量级且内存高效 * 充满活力且富有创造力的社区 * 100% 隐私 使用之前需要先安装 llama.cpp server 我还是喜欢命令行直接安装 ## Winget (Windows)winget install llama.cpp## Homebrew (Mac and Linux)brew install llama.