内网环境下搭建大模型微调平台实战指南 | 极客日志

PythonAI算法

内网环境下搭建大模型微调平台实战指南

综述由AI生成详细阐述了在内网受限环境下从零搭建大模型微调平台的完整流程。内容涵盖基于 VMware 的依赖预下载方案、Docker 共享内存与 GPU 映射配置、Python 虚拟环境隔离策略以及离线 pip 包管理的具体命令。针对 Llama-Factory 常见的 cli 命令缺失、transformers 版本冲突、torch cuda 版本不匹配等问题提供了具体的排查与修复步骤，并补充了数据格式规范与环境验证方法，旨在帮助开发者在无外网条件下顺利部署微调环境。

古灵精怪发布于 2025/2/6更新于 2026/6/123 浏览

内网环境下搭建大模型微调平台实战指南

背景与准备

AI 服务器通常部署在内网安全区域，除了预先安装的 Python 及 Docker 等基础软件包外，往往无法直接访问外网 PyPI 或 GitHub 下载依赖。本文介绍从零基于 Llama-Factory 搭建大模型微调环境的完整流程，重点解决离线依赖管理与环境配置问题。

为了高效解决内网依赖问题，建议在 VMware 上搭建一个与目标服务器操作系统版本（例如 CentOS 7/8）一致的虚拟机用于联网下载依赖包，后续再通过 SCP 或 U 盘将安装包拷贝至内网服务器。

Docker 环境配置

在运维同事打好基础 Docker 镜像后，建议通过编写独立的 docker-compose.yml 文件来启动开发环境。为了避免挂载卷污染系统目录，建议以个人名字命名文件夹，将 volume 挂载到该目录下，保持环境整洁且易于清理。

docker-compose 配置示例：

version: '3'
services:
  llm-dev:
    image: nvcr.io/nvidia/pytorch:23.05-py3
    container_name: llm-finetune-env
    shm_size: '16gb'
    volumes:
      - ./data:/workspace/data
      - ./logs:/workspace/logs
      - ./models:/workspace/models
    ports:
      - "7860:7860"
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
    environment:
      - NVIDIA_VISIBLE_DEVICES=all

关键配置说明：

共享内存 (shm_size)：多卡分布式训练时，PyTorch 的 NCCL 通信机制需要大量共享内存，默认 64MB 极易导致报错，需调大至 16GB 或更高。

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

python3 -m venv apienv

source apienv/bin/activate

which python
python --version

在联网虚拟机上生成依赖列表：首先确定项目所需的依赖版本，避免版本冲突。
```
pip freeze > requirements.txt
```

下载所有依赖包：创建一个临时虚拟环境，指定国内镜像源下载所需包及 requirements.txt 中的所有依赖。

# 下载特定包
pip install pandas -i http://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com

# 下载 requirements 依赖并指定目录
pip download -r requirements.txt -d /home/sitepackage/ --index-url http://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com

# 下载特定版本包（如 gradio）
pip3 download -d /home/sitepackage/ gradio==4.21.0 -i http://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com

# 注意：torch 和 torchvision 可能需要单独下载 wheel 包，因为 CUDA 版本需匹配
pip download torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 -d /home/sitepackage/

拷贝至内网服务器：将下载的 /home/sitepackage/ 目录完整拷贝至内网服务器的对应路径。

内网离线安装：在内网虚拟环境中执行安装命令。

# 离线安装依赖
pip install --no-index --find-links=/home/sitepackage/ -r requirements.txt

# 安装 Llama-Factory 源码（解决 llamafactory-cli 不存在问题）
pip install -e . --no-build-isolation --no-index --find-links=/home/sitepackage/

pip install -e . --no-build-isolation --no-index --find-links=/home/sitepackage/

shm_size: 16GB

CUDA_VISIBLE_DEVICES=0 llamafactory-cli train xxx

pip install transformers==4.41.2 --no-index --find-links=/home/sitepackage/

# 示例：CUDA 11.8
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

{"instruction": "请解释什么是人工智能", "input": "", "output": "人工智能是..."}

llamafactory-cli export --help

内网环境下搭建大模型微调平台实战指南

内网环境下搭建大模型微调平台实战指南

背景与准备

Docker 环境配置

更多推荐文章

相关免费在线工具

Python 虚拟环境隔离

离线依赖包管理策略

LLaMA-Factory 常见问题处理

1. llamafactory-cli 命令不存在

2. Docker 共享内存不足

3. Transformers 版本不兼容

4. Torch 版本不匹配

数据准备与格式规范

验证与总结

更多推荐文章

相关免费在线工具

内网环境下搭建大模型微调平台实战指南

内网环境下搭建大模型微调平台实战指南

背景与准备

Docker 环境配置

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

Python 虚拟环境隔离

离线依赖包管理策略

LLaMA-Factory 常见问题处理

1. llamafactory-cli 命令不存在

2. Docker 共享内存不足

3. Transformers 版本不兼容

4. Torch 版本不匹配

数据准备与格式规范

验证与总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具