Llama3 中文模型实战微调与部署指南
本教程基于 RockyLinux8 版本,适用于单机 RTX 4090Ti (24G 显存) 环境。训练过程中 GPU 显存占用约为 23G。通过本文档,您可以完整掌握从模型下载、数据准备、LoRA 微调、模型合并到 RAG 应用部署的全流程。
1. 环境准备与模型下载
1.1 硬件与软件要求
- 操作系统: RockyLinux 8 或 CentOS 7+
- GPU: NVIDIA GeForce RTX 4090 (建议 24G 显存)
- CUDA: 建议使用 CUDA 11.8 或更高版本
- Python: Python 3.10 及以上
- 依赖库: PyTorch, Transformers, Accelerate 等
1.2 下载预训练模型
下载训练好的 Llama3-8B 版本中文模型。请将模型文件放置于指定目录:
/data/dataset/model/llama3/8b-chinese-chat
确保目录结构包含 config.json, tokenizer.json 及权重文件。若使用 HuggingFace 下载,请配置好环境变量以加速访问。
2. 使用 LLaMA-Factory 进行微调
LLaMA-Factory 是一个高效的大模型微调框架,支持多种训练策略(如 SFT, LoRA)。
2.1 安装 LLaMA-Factory
创建项目目录并克隆仓库。注意版本兼容性,推荐使用 v0.6.1 或更新稳定版。
# 建立存放目录
mkdir -p /data/dataset/project
cd /data/dataset/project
# 克隆仓库
git clone https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory-0.6.1
# 安装依赖
pip install -r requirements.txt
2.2 准备训练数据
进入数据目录,添加您的指令微调数据。数据格式通常为 JSON 列表,包含 instruction, input, output 字段。
cd /data/dataset/project/LLaMA-Factory-0.6.1/data
# 例如创建 stock.json
数据示例如下:
[
{"instruction": "请给出以下区域板块包含的个股名称和代码,使用;隔开",


