5060ti显卡本地AI训练部署

5060ti显卡本地AI训练部署

前言

前面配置的时候找了很多文章来看,都有着各种奇奇怪怪的问题,本文将记录我配置成功的一次案例供大家参考。2025年11月24日记 这是我第一次实现大模型的微调训练,电脑的配置是显卡NVIDIA GeForce RTX 5060 Ti GPU,训练的是Deep Seek-r1 的 7B 模型如果大家有更好的显卡,可以尝试一下14B。在此非常感谢ZEEKLOG的大佬,在他们的基础上,我的博客进一步完善一些细节,文末会附上大佬的原文链接。那么废话不多说,直接开始!(默认大家有一定的基础)

1.前置条件


1.1 基础配置

(具体的安装和使用教程网上有很多,在这里就不做过多的赘述了)

1. 使用Anaconda(Python的环境管理工具),这样就不需要一个一个单独下载python的版本,并且使用起来很方便。

2. 使用PyCharm(Python的集成开发环境),可以在这里面编辑、运行.py文件等操作。

3. 使用Git(分布式版本控制系统),用于克隆GitHub上的优秀项目,不用也没事,可以直接下载.zip文件。

4. 使用CUDA和cuDNN(用于GPU训练加速),需要注意这里面的版本关系,别下错了。​​​​​​

5.使用PyTorch(深度学习框架),这个版本要与你自己电脑的CUDA版本对应。

以上就是环境配置需要的全部内容,接下来我们就进行项目复刻。

1.2安装anaconda3

这个没什么说的,直接官网上面下载安装包,拉到本地后一直点下一步 ,注意:选择较大的磁盘放置,不建议放系统盘

1.3初始化环境

打开Anaconda Prompt(从Windows开始菜单找到),执行

创建新的虚拟环境

conda create -n llama python=3.10 

激活虚拟环境

conda activate llama

安装支持 sm_120 的 PyTorch(5060ti的CUDA是12.8/12.9,选择支持你们自己电脑的CUDA的版本)

# 先安装PyTorch CUDA版本(官方源),再安装其他依赖(清华源) pip install torch==2.8.0 --index-url https://download.pytorch.org/whl/cu128 pip install torchvision==0.23.0 torchaudio==2.8.0 -i https://pypi.tuna.tsinghua.edu.cn/simple

这个地方我没有跑动,所以采取了下述方法

手动下载 CUDA 12.8 版的 PyTorch whl 包

pip 直接下载官方源容易超时,手动下载是最稳定的方式,步骤如下:打开浏览器,访问 PyTorch 官方 cu128 源的索引页:https://download.pytorch.org/whl/cu128/torch/在页面中找到适配你环境的 whl 包:我的环境是Python 3.10 + Windows AMD64,对应包名是:torch-2.8.0%2Bcu128-cp310-cp310-win_amd64.whl%2B+的 URL 编码,下载后文件名会自动还原)。点击该链接开始下载(文件大小约3.2GB),若浏览器下载慢,可复制链接到迅雷 / IDM等下载工具,利用多线程加速。记住下载的保存路径(比如G:\AI\downloads\C:\Users\Administrator\Downloads\)。



本地安装 CUDA 版 PyTorch

打开命令行(确保已激活llama环境),切换到 whl 包的下载目录,执行本地安装命令:

验证脚本

import torch print("PyTorch版本:", torch.__version__) print("CUDA是否可用:", torch.cuda.is_available()) print("CUDA版本:", torch.version.cuda if torch.cuda.is_available() else "None") if torch.cuda.is_available(): print("GPU设备:", torch.cuda.get_device_name(0)) print("GPU数量:", torch.cuda.device_count())

预期输出:

接下来就是:克隆GitHub项目

#git拉取 pip install -e ".[torch,metrics]" -i https://pypi.tuna.tsinghua.edu.cn/simple/ #或者镜像源直接下 pip install -e ".[torch,metrics]" -i https://pypi.tuna.tsinghua.edu.cn/simple/ 

下载下来后直接pycharm打开

验证(出现版本号就成功了)

llamafactory-cli version

1.4下载大模型

在终端输入如下指令,修改大模型存放位置(选择一个合适足够大的存储位置)

echo $env:HF_HOME = "G:\AI\Hugging-Face"

修改大模型下载位置(这个一般不需要修改)

echo $env:HF_ENDPOINT="https://hf-mirror.com"

安装huggingface_hub(如果第一个下载爆红,可以试试第二个镜像源)

pip install -U huggingface_hub #或者 pip install -U huggingface_hub -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple 

下载训练模型

huggingface-cli download --resume-download deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
如果上述有问题可采用这个办法解决:
 右键「此电脑」→「属性」→「高级系统设置」→「环境变量」。在用户变量系统变量中,点击「新建」:变量名HF_ENDPOINT变量值https://hf-mirror.com点击「确定」保存,重启命令行窗口(环境变量生效)。直接执行简化的下载命令即可:

1.5制作训练集(json格式)

 { "messages": [ { "role": "user", "content": [{"type": "text", "value": "hi"}], "loss_weight": 0.0 }, { "role": "assistant", "content": [{"type": "text", "value": "Hello! I am LAP酱, an AI assistant developed by BINGCHN. How can I assist you today with your CTF challenges?"}], "loss_weight": 1.0 } ] }

配置训练集

1.6启动LLama-Factory 的可视化微调界面(http://localhost:7860/)

llamafactory-cli webui

如果报错可以检查一下huggingface-hub版本,建议使用0.34.0

最后就是看后面的东西了

Read more

HexStrike + DeepSeek + Cherry,最强AI渗透组合,打破手工渗透壁垒!

HexStrike + DeepSeek + Cherry,最强AI渗透组合,打破手工渗透壁垒!

文章目录 * 环境准备 * HexStrike部署 * DeepSeek API获取 * Python环境安装 * 安装环境依赖 * Cherry Studio搭建 * Cherry联动HexStrike 环境准备 * Windows 11 * Kali虚拟机:https://www.kali.org/ * HexStrike V6.0:https://github.com/0x4m4/hexstrike-ai * Cherry Studio V1.6.5:https://www.cherry-ai.com/download * Python 3.x:https://www.python.org/ 将文件包全部放到某个目录下,便于之后操作: HexStrike部署 * HexStrike是一个开源的“AI 驱动”自动化渗透测试框架,

企业级招聘数据采集实战:基于 Bright Data AI Studio 的自动化爬虫方案

企业级招聘数据采集实战:基于 Bright Data AI Studio 的自动化爬虫方案

🤵‍♂️ 个人主页:@艾派森的个人主页 ✍🏻作者简介:Python学习者 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞👍🏻 收藏 📂加关注+ 目录 一、 引言 二、Bright Data AI Studio 概览 2.1 AI Studio 是什么 2.2 AI Studio 的核心能力拆解 2.3 为什么说 AI Studio 更适合企业级场景 三、实战部分 3.1 实战目标与采集场景说明 3.2 准备工作 3.3 采集数据 3.4 扩展采集任务

AI 驱动游戏:鸿蒙生态的机会在哪里?

AI 驱动游戏:鸿蒙生态的机会在哪里?

子玥酱(掘金 / 知乎 / ZEEKLOG / 简书 同名) 大家好,我是子玥酱,一名长期深耕在一线的前端程序媛 👩‍💻。曾就职于多家知名互联网大厂,目前在某国企负责前端软件研发相关工作,主要聚焦于业务型系统的工程化建设与长期维护。 我持续输出和沉淀前端领域的实战经验,日常关注并分享的技术方向包括前端工程化、小程序、React / RN、Flutter、跨端方案, 在复杂业务落地、组件抽象、性能优化以及多端协作方面积累了大量真实项目经验。 技术方向:前端 / 跨端 / 小程序 / 移动端工程化 内容平台:掘金、知乎、ZEEKLOG、简书 创作特点:实战导向、源码拆解、少空谈多落地 文章状态:长期稳定更新,大量原创输出 我的内容主要围绕 前端技术实战、真实业务踩坑总结、框架与方案选型思考、行业趋势解读 展开。文章不会停留在“API 怎么用”,而是更关注为什么这么设计、在什么场景下容易踩坑、

揭秘AI大模型通信机制:深入理解流式传输与数据封装逻辑

揭秘AI大模型通信机制:深入理解流式传输与数据封装逻辑

文章目录 * 前言 * 一、 核心数据传输格式详解 * 1. 请求格式 * 2. 响应格式:非流式 * 3. 响应格式:流式 * 二、 流程图分析:从输入到输出 * 1. 流程逻辑描述 * 2. 流程图 (Mermaid 代码表示) * 三、 原理架构图分析 * 1. 架构层级说明 * 2. 架构图 (Mermaid 代码表示) * 四、 关键技术原理深度解析 * 1. 为什么选择 SSE 而不是 WebSocket? * 2. Token 与数据传输的关系 * 3. 数据压缩 * 五、 总结 前言 Ai聊天工具(如ChatGPT、Claude、文心一言等)的数据传输是核心功能的基石。要深入理解其背后的机制,