PythonAI算法

Llama3 中文模型微调与部署实战指南

综述由AI生成基于 Llama3-8B 中文模型进行微调与部署的完整流程。内容涵盖环境搭建、LLaMA-Factory 工具安装、自定义数据集准备、LoRA 微调参数配置、模型权重合并、转换为 GGUF 格式以及利用 Ollama 和 Phidata 构建本地 RAG 应用。教程针对 4090Ti 硬件环境进行了参数优化，解决了显存占用与推理效率问题，并提供常见问题排查指南，适合希望落地大模型技术的开发者参考。

岁月神偷发布于 2025/2/6更新于 2026/4/276 浏览

Llama3 中文模型微调与部署实战指南

本教程基于 RockyLinux 8 版本环境，适用于单机 4090Ti 24G 显存场景。训练过程中 GPU 显存占用约为 23G。通过本文档，您可以完整掌握从模型下载、数据准备、LoRA 微调、模型合并到本地化部署的全流程。

1. 环境准备与模型下载

1.1 硬件与软件要求

操作系统: RockyLinux 8 / CentOS 7+
GPU: NVIDIA RTX 4090 (24GB VRAM) 或同等性能显卡
Python: 建议 Python 3.10 及以上
CUDA: 确保驱动支持 CUDA 11.8 或更高版本

1.2 下载中文模型

下载训练好的 Llama3-8B 版本中文模型。推荐使用 HuggingFace 上的开源中文适配版本。

存放路径: /data/dataset/model/llama3/8b-chinese-chat

注意：请确保模型文件完整性，建议校验 SHA256 值。

2. 使用 LLaMA-Factory 进行微调和部署

LLaMA-Factory 是一个高效的大模型微调工具，支持多种训练策略（如 LoRA, QLoRA）。

2.1 安装 LLaMA-Factory

# 建立存放目录
mkdir -p /data/dataset/project
cd /data/dataset/project

# 克隆仓库，注意版本 v0.6.1 稳定性较好
git clone https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory-0.6.1

# 安装依赖
pip install -r requirements.txt

2.2 准备训练数据

进入数据目录并添加自定义指令数据。

cd /data/dataset/project/LLaMA-Factory-0.6.1/data

创建 stock.json 文件，格式需符合 JSON Lines 或标准 JSON 列表结构。示例如下：

[
  {
    "instruction": "请给出以下区域板块包含的个股名称和代码，使用;隔开",
    "input": "贵州",
    "output": "贵州茅台 600519;"
  }

sha1sum stock.json
# 输出示例：073db05fbf903c494e0826615194fef77c24fa1f

"stock_zh": {
  "file_name": "stock.json",
  "file_sha1": "073db05fbf903c494e0826615194fef77c24fa1f"
}

_register_template(
    name="llama3",
    format_user=StringFormatter(
        slots=[
            (
                "<|start_header_id|>user<|end_header_id|>\n\n{{content}}<|eot_id|>"
                "<|start_header_id|>assistant<|end_header_id|>\n\n"
            )
        ]
    ),
    format_system=StringFormatter(
        slots=[{"bos_token"}, "<|start_header_id|>system<|end_header_id|>\n\n{{content}}<|eot_id|>"]
    ),
    format_observation=StringFormatter(
        slots=[
            (
                "<|start_header_id|>tool<|end_header_id|>\n\n{{content}}<|eot_id|>"
                "<|start_header_id|>assistant<|end_header_id|>\n\n"
            )
        ]
    ),
    default_system="You are a helpful assistant.",
    stop_words=["<|eot_id|>"],
    replace_eos=True,
)

#!/bin/bash
export CUDA_DEVICE_MAX_CONNECTIONS=1
export NCCL_P2P_DISABLE="1"
export NCCL_IB_DISABLE="1"

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \
  --stage sft \
  --do_train True \
  --model_name_or_path /data/dataset/model/llama3/8b-chinese-chat \
  --dataset stock_zh \
  --template llama3 \
  --lora_target q_proj,v_proj \
  --output_dir output1 \
  --overwrite_cache \
  --per_device_train_batch_size 2 \
  --gradient_accumulation_steps 64 \
  --lr_scheduler_type cosine \
  --logging_steps 5 \
  --save_steps 100 \
  --learning_rate 2e-4 \
  --num_train_epochs 1.0 \
  --finetuning_type lora \
  --fp16 \
  --lora_rank 128

chmod +x single_lora_llama3.sh
./single_lora_llama3.sh

#!/bin/bash
python src/export_model.py \
  --model_name_or_path /data/dataset/model/llama3/8b-chinese-chat \
  --adapter_name_or_path /data/dataset/project/LLaMA-Factory-0.6.1/output1 \
  --template llama3 \
  --finetuning_type lora \
  --export_dir /data/dataset/model/llama3/8b-chinese-chat/output_lora1 \
  --export_size 2 \
  --export_legacy_format false

chmod +x export.sh
bash export.sh

mkdir -p /data/dataset/model/llama3/custom
cd /data/dataset/project/llama.cpp

python ./convert.py /data/dataset/model/llama3/8b-chinese-chat/output_lora1 \
  --outtype f16 \
  --outfile /data/dataset/model/llama3/custom/8b.bin \
  --vocab-type bpe

curl -fsSL https://ollama.com/install.sh | sh

FROM /data/dataset/model/llama3/custom/8b.bin
TEMPLATE """{{ if .System }}<|start_header_id|>system<|end_header_id|>

{{ .System }}<|eot_id|>{{ end }}{{ if .Prompt }}<|start_header_id|>user<|end_header_id|>

{{ .Prompt }}<|eot_id|>{{ end }}<|start_header_id|>assistant<|end_header_id|>

{{ .Response }}<|eot_id|>"""
SYSTEM """You are a helpful assistant. 你是一个乐于助人的助手。"""
PARAMETER temperature 0.2
PARAMETER num_keep 24
PARAMETER stop <|start_header_id|
PARAMETER stop <|end_header_id|
PARAMETER stop <|eot_id|

ollama create llama3 -f ./Modelfile
ollama list

ollama run nomic-embed-text

cd /data/dataset/project
git clone https://github.com/phidatahq/phidata.git
cd phidata
pip install -r cookbook/llms/groq/rag/requirements.txt

docker run -d \
  -e POSTGRES_DB=ai \
  -e POSTGRES_USER=ai \
  -e POSTGRES_PASSWORD=ai \
  -e PGDATA=/data/dataset/pgdata/data \
  -v pgvolume:/data/dataset/pgdata \
  -p 5532:5432 \
  --name pgvector \
  phidata/pgvector:16

streamlit run cookbook/llms/ollama/rag/app.py

Llama3 中文模型微调与部署实战指南

Llama3 中文模型微调与部署实战指南

1. 环境准备与模型下载

1.1 硬件与软件要求

1.2 下载中文模型

2. 使用 LLaMA-Factory 进行微调和部署

2.1 安装 LLaMA-Factory

2.2 准备训练数据

Llama3 中文模型微调与部署实战指南

Llama3 中文模型微调与部署实战指南

1. 环境准备与模型下载

1.1 硬件与软件要求

1.2 下载中文模型

2. 使用 LLaMA-Factory 进行微调和部署

2.1 安装 LLaMA-Factory

2.2 准备训练数据

更多推荐文章

相关免费在线工具

2.3 配置 Llama3 模板

2.4 编写训练脚本

2.5 合并模型权重

3. 模型打包为 GGUF 格式

3.1 编译 llama.cpp

3.2 转换模型

4. 使用 Ollama 与 Phidata 启动 RAG

4.1 安装与配置 Ollama

4.2 集成 Phidata 框架

5. 常见问题与优化建议

更多推荐文章

相关免费在线工具

Llama3 中文模型微调与部署实战指南

Llama3 中文模型微调与部署实战指南

1. 环境准备与模型下载

1.1 硬件与软件要求

1.2 下载中文模型

2. 使用 LLaMA-Factory 进行微调和部署

2.1 安装 LLaMA-Factory

2.2 准备训练数据

Llama3 中文模型微调与部署实战指南

Llama3 中文模型微调与部署实战指南

1. 环境准备与模型下载

1.1 硬件与软件要求

1.2 下载中文模型

2. 使用 LLaMA-Factory 进行微调和部署

2.1 安装 LLaMA-Factory

2.2 准备训练数据

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.3 配置 Llama3 模板

2.4 编写训练脚本

2.5 合并模型权重

3. 模型打包为 GGUF 格式

3.1 编译 llama.cpp

3.2 转换模型

4. 使用 Ollama 与 Phidata 启动 RAG

4.1 安装与配置 Ollama

4.2 集成 Phidata 框架

5. 常见问题与优化建议

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具