内网环境下搭建大模型微调平台实战指南
背景与准备
AI 服务器通常部署在内网安全区域,除了预先安装的 Python 及 Docker 等基础软件包外,往往无法直接访问外网 PyPI 或 GitHub 下载依赖。本文介绍从零基于 Llama-Factory 搭建大模型微调环境的完整流程,重点解决离线依赖管理与环境配置问题。
为了高效解决内网依赖问题,建议在 VMware 上搭建一个与目标服务器操作系统版本(例如 CentOS 7/8)一致的虚拟机用于联网下载依赖包,后续再通过 SCP 或 U 盘将安装包拷贝至内网服务器。
Docker 环境配置
在运维同事打好基础 Docker 镜像后,建议通过编写独立的 docker-compose.yml 文件来启动开发环境。为了避免挂载卷污染系统目录,建议以个人名字命名文件夹,将 volume 挂载到该目录下,保持环境整洁且易于清理。
docker-compose 配置示例:
version: '3'
services:
llm-dev:
image: nvcr.io/nvidia/pytorch:23.05-py3
container_name: llm-finetune-env
shm_size: '16gb'
volumes:
- ./data:/workspace/data
- ./logs:/workspace/logs
- ./models:/workspace/models
ports:
- "7860:7860"
deploy:
resources:
reservations:
devices:
- driver: nvidia
count: all
capabilities: [gpu]
environment:
- NVIDIA_VISIBLE_DEVICES=all
关键配置说明:
- 共享内存 (
shm_size):多卡分布式训练时,PyTorch 的 NCCL 通信机制需要大量共享内存,默认 64MB 极易导致报错,需调大至 16GB 或更高。


