Llama3 中文模型实战微调与部署指南 | 极客日志

PythonAI算法

Llama3 中文模型实战微调与部署指南

综述由AI生成基于 RockyLinux8 环境，演示如何使用 LLaMA-Factory 对 Llama3-8B 中文模型进行 LoRA 微调。流程涵盖数据集准备、训练脚本配置、模型合并导出以及基于 llama.cpp 和 Phidata 的 RAG 应用部署。详细说明了参数设置、模板配置及常见问题处理，适合具备基础 Linux 操作经验的开发者参考。

星云发布于 2025/2/6更新于 2026/6/330 浏览

Llama3 中文模型实战微调与部署指南

本教程基于 RockyLinux8 版本，适用于单机 RTX 4090Ti (24G 显存) 环境。训练过程中 GPU 显存占用约为 23G。通过本文档，您可以完整掌握从模型下载、数据准备、LoRA 微调、模型合并到 RAG 应用部署的全流程。

1. 环境准备与模型下载

1.1 硬件与软件要求

操作系统: RockyLinux 8 或 CentOS 7+
GPU: NVIDIA GeForce RTX 4090 (建议 24G 显存)
CUDA: 建议使用 CUDA 11.8 或更高版本
Python: Python 3.10 及以上
依赖库: PyTorch, Transformers, Accelerate 等

1.2 下载预训练模型

下载训练好的 Llama3-8B 版本中文模型。请将模型文件放置于指定目录：

/data/dataset/model/llama3/8b-chinese-chat

确保目录结构包含 config.json, tokenizer.json 及权重文件。若使用 HuggingFace 下载，请配置好环境变量以加速访问。

2. 使用 LLaMA-Factory 进行微调

LLaMA-Factory 是一个高效的大模型微调框架，支持多种训练策略（如 SFT, LoRA）。

2.1 安装 LLaMA-Factory

创建项目目录并克隆仓库。注意版本兼容性，推荐使用 v0.6.1 或更新稳定版。

# 建立存放目录
mkdir -p /data/dataset/project
cd /data/dataset/project

# 克隆仓库
git clone https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory-0.6.1

# 安装依赖
pip install -r requirements.txt

2.2 准备训练数据

进入数据目录，添加您的指令微调数据。数据格式通常为 JSON 列表，包含 instruction, input, output 字段。

cd /data/dataset/project/LLaMA-Factory-0.6.1/data
# 例如创建 stock.json

数据示例如下：

[
  {"instruction": "请给出以下区域板块包含的个股名称和代码，使用;隔开",

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

sha1sum stock.json
# 输出示例：073db05fbf903c494e0826615194fef77c24fa1f

vim /data/dataset/project/LLaMA-Factory-0.6.1/data/dataset_info.json

"stock_zh": {
  "file_name": "stock.json",
  "file_sha1": "073db05fbf903c494e0826615194fef77c24fa1f"
}

vim /data/dataset/project/LLaMA-Factory-0.6.1/src/llmtuner/data/template.py

_register_template(
    name="llama3",
    format_user=StringFormatter(
        slots=[
            (
                "<|start_header_id|>user<|end_header_id|>\n\n{{content}}<|eot_id|>"
                "<|start_header_id|>assistant<|end_header_id|>\n\n"
            )
        ]
    ),
    format_system=StringFormatter(
        slots=[{"bos_token"}, "<|start_header_id|>system<|end_header_id|>\n\n{{content}}<|eot_id|>"]
    ),
    format_observation=StringFormatter(
        slots=[
            (
                "<|start_header_id|>tool<|end_header_id|>\n\n{{content}}<|eot_id|>"
                "<|start_header_id|>assistant<|end_header_id|>\n\n"
            )
        ]
    ),
    default_system="You are a helpful assistant.",
    stop_words=["<|eot_id|>"],
    replace_eos=True,
)

touch single_lora_llama3.sh
chmod +x single_lora_llama3.sh
vim single_lora_llama3.sh

#!/bin/bash
export CUDA_DEVICE_MAX_CONNECTIONS=1
export NCCL_P2P_DISABLE="1"
export NCCL_IB_DISABLE="1"

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \
  --stage sft \
  --do_train True \
  --model_name_or_path /data/dataset/model/llama3/8b-chinese-chat \
  --dataset stock_zh \
  --template llama3 \
  --lora_target q_proj,v_proj \
  --output_dir output1 \
  --overwrite_cache \
  --per_device_train_batch_size 2 \
  --gradient_accumulation_steps 64 \
  --lr_scheduler_type cosine \
  --logging_steps 5 \
  --save_steps 100 \
  --learning_rate 2e-4 \
  --num_train_epochs 1.0 \
  --finetuning_type lora \
  --fp16 \
  --lora_rank 128 \
  --lora_alpha 32 \
  --target_modules all-linear

./single_lora_llama3.sh

vim /data/dataset/project/LLaMA-Factory-0.6.1/export.sh

#!/bin/bash
python src/export_model.py \
  --model_name_or_path /data/dataset/model/llama3/8b-chinese-chat \
  --adapter_name_or_path /data/dataset/project/LLaMA-Factory-0.6.1/output1 \
  --template llama3 \
  --finetuning_type lora \
  --export_dir /data/dataset/model/llama3/8b-chinese-chat/output_lora1 \
  --export_size 2 \
  --export_legacy_format false

chmod +x /data/dataset/project/LLaMA-Factory-0.6.1/export.sh
bash /data/dataset/project/LLaMA-Factory-0.6.1/export.sh

cd /data/dataset/project/LLaMA-Factory-0.6.1
vim run_web.sh

CUDA_VISIBLE_DEVICES=0 python src/web_demo.py \
    --model_name_or_path /data/dataset/model/llama3/8b-chinese-chat/output_lora1 \
    --template llama3 \
    --infer_backend vllm \
    --vllm_enforce_eager

/data/dataset/project/llama.cpp

mkdir -p /data/dataset/model/llama3/custom
cd /data/dataset/project/llama.cpp

python ./convert.py /data/dataset/model/llama3/8b-chinese-chat/output_lora1 \
  --outtype f16 \
  --outfile /data/dataset/model/llama3/custom/8b.bin \
  --vocab-type bpe

curl -fsSL https://ollama.com/install.sh | sh

touch Modelfile
vim Modelfile

FROM /data/dataset/model/llama3/custom/8b.bin
TEMPLATE """{{ if .System }}<|start_header_id|>system<|end_header_id|>

{{ .System }}<|eot_id|>{{ end }}{{ if .Prompt }}<|start_header_id|>user<|end_header_id|>

{{ .Prompt }}<|eot_id|>{{ end }}<|start_header_id|>assistant<|end_header_id|>

{{ .Response }}<|eot_id|>"""
SYSTEM """You are a helpful assistant. 你是一个乐于助人的助手。"""
PARAMETER temperature 0.2
PARAMETER num_keep 24
PARAMETER stop <|start_header_id|
PARAMETER stop <|end_header_id|
PARAMETER stop <|eot_id|

ollama create llama3 -f ./Modelfile
ollama list

ollama run nomic-embed-text

cd /data/dataset/project
git clone https://github.com/phidatahq/phidata.git
cd phidata
pip install -r cookbook/llms/groq/rag/requirements.txt

vim pg_start.sh

docker run -d \
  -e POSTGRES_DB=ai \
  -e POSTGRES_USER=ai \
  -e POSTGRES_PASSWORD=ai \
  -e PGDATA=/data/dataset/pgdata/data \
  -v pgvolume:/data/dataset/pgdata \
  -p 5532:5432 \
  --name pgvector \
  phidata/pgvector:16

streamlit run cookbook/llms/ollama/rag/app.py

Llama3 中文模型实战微调与部署指南

Llama3 中文模型实战微调与部署指南

1. 环境准备与模型下载

1.1 硬件与软件要求

1.2 下载预训练模型

2. 使用 LLaMA-Factory 进行微调

2.1 安装 LLaMA-Factory

2.2 准备训练数据

更多推荐文章

相关免费在线工具

2.3 配置数据集信息

2.4 配置模型模板

2.5 编写训练脚本

3. 模型合并与导出

3.1 执行合并

3.2 启动 Web 演示

4. 模型打包与量化

4.1 编译 llama.cpp

4.2 转换模型格式

5. 构建 RAG 应用

5.1 安装 Ollama

5.2 搭建 Phidata RAG 环境

6. 常见问题与优化建议

6.1 显存不足 (OOM)

6.2 训练不收敛

6.3 推理速度慢

7. 总结

更多推荐文章

相关免费在线工具

Llama3 中文模型实战微调与部署指南

Llama3 中文模型实战微调与部署指南

1. 环境准备与模型下载

1.1 硬件与软件要求

1.2 下载预训练模型

2. 使用 LLaMA-Factory 进行微调

2.1 安装 LLaMA-Factory

2.2 准备训练数据

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.3 配置数据集信息

2.4 配置模型模板

2.5 编写训练脚本

3. 模型合并与导出

3.1 执行合并

3.2 启动 Web 演示

4. 模型打包与量化

4.1 编译 llama.cpp

4.2 转换模型格式

5. 构建 RAG 应用

5.1 安装 Ollama

5.2 搭建 Phidata RAG 环境

6. 常见问题与优化建议

6.1 显存不足 (OOM)

6.2 训练不收敛

6.3 推理速度慢

7. 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具