本地训练专属大模型：DeepSeek-R1 微调实战指南 | 极客日志

PythonAI算法

本地训练专属大模型：DeepSeek-R1 微调实战指南

环境配置使用 **Anaconda**（Python 的环境管理工具），这样就不需要一个一个单独下载 python 的版本，并且使用起来很方便。 Anaconda 官网使用 **PyCharm**（Python 的集成开发环境），可以在这里面编辑、运行.py 文件等操作。 PyCharm 官网使用 **Git**（分布式版本控制系统），用于克隆 GitHub 上的优秀项目，不用也没事，可以直…

灵魂摆渡发布于 2026/4/6更新于 2026/7/2717K 浏览

1. 环境配置

使用 Anaconda（Python 的环境管理工具），这样就不需要一个一个单独下载 python 的版本，并且使用起来很方便。
- Anaconda 官网
使用 PyCharm（Python 的集成开发环境），可以在这里面编辑、运行.py 文件等操作。
- PyCharm 官网
使用 Git（分布式版本控制系统），用于克隆 GitHub 上的优秀项目，不用也没事，可以直接下载.zip 文件。
- Git 官网
使用 CUDA 和 cuDNN（用于 GPU 训练加速），需要注意这里面的版本关系，别下错了。
- CUDA 官网
- cuDNN 官网
使用 PyTorch（深度学习框架），这个版本要与你自己电脑的 CUDA 版本对应。
- PyTorch 官网

以上就是环境配置需要的全部内容，接下来我们就进行项目复刻。

2. 初始化环境

打开 Anaconda Prompt（从 Windows 开始菜单找到），执行以下命令。

创建新的虚拟环境

conda create -n llama python=3.10

激活虚拟环境

conda activate llama

安装 PyTorch（我的 CUDA 是 12.4，选择支持你们自己电脑的 CUDA 的版本）

conda install pytorch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 pytorch-cuda=12.4 -c pytorch -c nvidia

克隆 GitHub 项目

git clone https://github.com/hiyouga/LLaMA-Factory.git

或者直接下载压缩包，在 PyCharm 中打开项目。

在使用安装指令时出现问题，可以添加镜像源：

pip install -e ".[torch,metrics]" -i https://pypi.tuna.tsinghua.edu.cn/simple/

验证安装（出现版本号就成功了）

llamafactory-cli version

3. 下载模型

在终端输入如下指令，修改大模型存放位置（选择一个合适足够大的存储位置）

echo :HF_HOME=

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

echo $env:HF_ENDPOINT="https://hf-mirror.com"

pip install -U huggingface_hub

pip install -U huggingface_hub -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple

huggingface-cli download --resume-download deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

{"instruction":"你叫什么？是谁发明了你？","input":"","output":"您好，我名为 小白智能助手，是 AI 助手。我的任务是为用户提供有针对性的解答和支持。"}

llamafactory-cli webui

conda create -n deepseekApi python=3.10

conda activate deepseekApi

conda install -c conda-forge fastapi uvicorn transformers pytorch

pip install safetensors sentencepiece protobuf

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
import gradio as gr

# 模型路径
model_path = r"E:\DeepSeek-merged"  # 这里选择自己保存的路径

# 加载模型和 tokenizer
tokenizer = AutoTokenizer.from_pretrained(model_path)
device = "cuda" if torch.cuda.is_available() else "cpu"
model = AutoModelForCausalLM.from_pretrained(
    model_path, torch_dtype=torch.float16 if device == "cuda" else torch.float32
).to(device)

def generate_response(message, history):
    try:
        # 将历史对话拼接成 prompt
        prompt = "\n".join([f"用户：{h[0]}\n助手：{h[1]}" for h in history]) + f"\n用户：{message}\n助手："
        # 编码输入
        inputs = tokenizer(prompt, return_tensors="pt").to(device)
        # 生成回复
        outputs = model.generate(
            inputs.input_ids,
            max_length=1000,
            min_length=30,
            top_p=0.85,
            temperature=0.6,
            repetition_penalty=1.2,
            no_repeat_ngram_size=3,
            num_beams=4,
            do_sample=True,
            early_stopping=True
        )
        # 解码并提取新生成的回复
        response = tokenizer.decode(outputs[0][inputs.input_ids.shape[-1]:], skip_special_tokens=True)
        return response
    except Exception as e:
        return f"生成回复时出错：{str(e)}"

# 创建 Gradio 界面
demo = gr.ChatInterface(
    fn=generate_response,
    title="AI 问答助手",
    description="智能助手",
    examples=["你好！你是谁？", "你能做什么？"],
    theme="soft"
)

if __name__ == "__main__":
    # demo.launch(server_name="0.0.0.0", server_port=7860)  # 所有端口都可以访问
    demo.launch(server_name="localhost", server_port=7860)  # 本地访问

本地训练专属大模型：DeepSeek-R1 微调实战指南

1. 环境配置

2. 初始化环境

3. 下载模型

更多推荐文章

相关免费在线工具

4. 制作训练集（json 格式）

5. 启动 LLaMA-Factory 的可视化微调界面

6. 在线使用

7. 模型导出

8. 本地使用

更多推荐文章

相关免费在线工具

本地训练专属大模型：DeepSeek-R1 微调实战指南

1. 环境配置

2. 初始化环境

3. 下载模型

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

4. 制作训练集（json 格式）

5. 启动 LLaMA-Factory 的可视化微调界面

6. 在线使用

7. 模型导出

8. 本地使用

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具