LLaMA-Factory全流程训练模型

优质文章学习记录

08 Apr 2026 — 5 min read

🤗本文主要讲述在docker下使用LLaMA-Factory训练推理模型。

🫡拉取镜像

首先需要启动docker，然后在终端中输入：

docker run -tid --gpus all -p 8000:8000 --name LLM -e NVIDIA_DRIVER_CAPABILITIES=compute,utility -e NVIDIA_VISIBLE_DEVICES=all --privileged=true ubuntu:20.04

这个命令启动了一个 Ubuntu 20.04 容器，使用所有可用的 GPU
主机的 8000 端口映射到容器的 8000 端口
容器命名为 LLM，以特权模式运行容器

进入容器

docker exec -it LLM /bin/bash

🥰但现在还不行，我们只将GPU映射到了docker里，还没有安装驱动。

wget https://developer.download.nvidia.com/compute/cuda/12.6.2/local_installers/cuda_12.6.2_560.35.03_linux.run

然后运行程序

sh cuda_12.6.2_560.35.03_linux.run

随后会生成一些指引，默认安装就行。

root@82c2f2b69781:/home# ls /usr/local/ | grep cuda cuda cuda-12.6 root@82c2f2b69781:/home# nvcc -V bash: nvcc: command not found

这说明系统的 PATH 环境变量没有包含 /usr/local/cuda-12.6/bin

编辑环境变量 vim ~/.bashrc 加入下面两行： export PATH=/usr/local/cuda-12.6/bin:$PATH export LD_LIBRARY_PATH=/usr/local/cuda-12.6/lib64:$LD_LIBRARY_PATH 然后重新运行一下就生效了： source ~/.bashrc

验证成功 ~

root@82c2f2b69781:/home# echo $PATH /usr/local/cuda-12.6/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin

🤗docker内安装python

docker拉取的Ubuntu20.04没有任何配置，比如wget等命令需要自己通过apt-get install 安装

Index of /ftp/python/3.10.6/ 这是python源码包的地址（3.10.6为例）

wget https://www.python.org/ftp/python/3.10.6/Python-3.10.6.tgz

tar -zxvf Python-3.10.6.tgz cd Python-3.10.6 sudo ./configure # configure 脚本会检查系统环境，并生成 Makefile 文件，以便后续的 make 命令可以正确编译源代码

🤗最后一步：

sudo make sudo make test sudo make install

💥LLaMA-Factory

💫安装：

git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git cd LLaMA-Factory pip install -e ".[torch,metrics]"

如果使用昇腾NPU的话，先设置一下环境变量：

export ASCEND_HOME_PATH=/usr/local/Ascend/ascend-toolkit/latest

💫下载模型：

git lfs install git clone https://www.modelscope.cn/Qwen/Qwen2.5-1.5B-Instruct.git

💫我们在 LLaMA-Factory/examples下创建 train.yaml 文件，这是微调训练模型的配置文件

### model model_name_or_path: /home/Qwen/Qwen2___5-1___5B-Instruct ### method stage: sft do_train: true finetuning_type: freeze # lora_target: all dataset: alpaca_zh_demo template: qwen cutoff_len: 10240 max_samples: 1000 overwrite_cache: true preprocessing_num_workers: 16 ### output output_dir: output logging_steps: 10 save_steps: 500 plot_loss: true overwrite_output_dir: true ### train per_device_train_batch_size: 1 gradient_accumulation_steps: 2 learning_rate: 1.0e-4 num_train_epochs: 3.0 lr_scheduler_type: cosine warmup_ratio: 0.1 fp16: true ddp_timeout: 180000000 ### eval val_size: 0.1 per_device_eval_batch_size: 1 eval_strategy: steps eval_steps: 500

💫使用vim写好后，我们使用 LLaMA-Factory/data/ alpaca_zh_demo.json这个数据集

instruction 部分描述了任务的具体指令。
input 部分通常包含任务所需的输入数据或信息。
output 部分是模型的输出。

💫开始微调训练

llamafactory-cli train examples/train.yaml

🕛️🕧️🕐️🕜️🕑️🕝️🕒️🕞️🕓️

loss ：模型在当前批次上的预测结果与实际标签之间的差异。
grad_norm：模型参数梯度的范数，反映梯度的大小，用于监控梯度爆炸或梯度消失的问题。
learning_rate：学习率是优化器在更新模型参数时使用的步长。
epoch：整个训练数据集被模型完整遍历的次数，一个 epoch 包含多个批次（batch）。

训练指标总结

***** train metrics ***** epoch = 3.0 total_flos = 2906404GF train_loss = 1.0846 train_runtime = 0:04:15.80 train_samples_per_second = 10.555 train_steps_per_second = 5.277

epoch: 训练的总轮次（3.0 个 epoch）。
total_flos: 训练过程中总共计算的浮点运算次数（2906404 亿次浮点运算）。
train_loss: 训练过程中的平均损失值（1.0846）。
train_runtime: 训练总共花费的时间（4 分 15.80 秒）。
train_samples_per_second: 每秒处理的样本数（10.555 个样本/秒）。
train_steps_per_second: 每秒处理的批次数（5.277 个批次/秒）。

💫 训练结束 ~

这是模型微调后产生的输出文件，包含了训练过程中生成的各种配置、权重、日志和结果

💯这时我们可以加载这个训练后的模型权重来对话：

from transformers import AutoModelForCausalLM, AutoTokenizer import torch # 我们的模型输出路径 model_name_or_path = "/home/LLaMA-Factory/output" model = AutoModelForCausalLM.from_pretrained(model_name_or_path) tokenizer = AutoTokenizer.from_pretrained(model_name_or_path) device = "cuda" if torch.cuda.is_available() else "cpu" model.to(device) prompt = "列出一个应该在野营应急包中的7件物品。" inputs = tokenizer(prompt, return_tensors="pt").to(device) with torch.no_grad(): outputs = model.generate(inputs.input_ids, max_length=50) response = tokenizer.decode(outputs[0], skip_special_tokens=True) print(response)

💦输出：

💯评估

Llamafactory 支持mmlu、cmmlu、ceval三种数据集验证。

llamafactory-cli eval --task mmlu --model_name_or_path /home/Qwen/Qwen2___5-1___5B-Instruct --template qwen --batch_size 1 –n_shot 5

💯推理

我们在LLaMA-Factory/examples 目录下新建一个 infer.yaml 文件进行推理，内容：

model_name_or_path: /home/Qwen/Qwen2___5-1___5B-Instruct template: qwen do_sample: false

运行：

 llamafactory-cli chat infer.yaml

写文章用哪个AI？2025年AI写作工具终极指南

写文章用哪个AI？2025年AI写作工具终极指南前言：当你盯着空白文档时，AI正在盯着你相信每个写作者都经历过这样的时刻：deadline如达摩克利斯之剑悬在头顶，Word文档里却只有一个闪烁的光标在嘲笑你的才华枯竭。这时候，你可能会想：“要是有个AI能帮我写就好了。” 好消息是，2025年的今天，AI写作工具已经从"能用"进化到"好用"，甚至"离不开"的程度。坏消息是，选择太多也是一种甜蜜的负担。一、主流AI写作工具横向对比 1. Claude（Anthropic）—— 学术派的温柔巨人核心优势： * 长文本处理能力：支持20万+tokens的上下文，能一次性处理约15万字的内容 * 逻辑连贯性：在长篇文章写作中表现出色，结构清晰，论证严密 * 安全性高：内容审核严格，适合正式场合使用适用场景： * 学术论文、研究报告 * 长篇商业文档

使用 LLaMA-Factory 微调 Qwen2.5 模型，并转换为 GGUF 格式部署

在开源大模型领域，Qwen 系列凭借强大的中文能力和友好的协议受到广泛欢迎。然而，直接使用基座模型往往无法满足特定业务场景的需求，需要通过微调来注入领域知识。微调后的模型如何高效部署？GGUF 格式是目前 llama.cpp 等推理后端广泛支持的格式，具有跨平台、内存映射等优点。本文将完整记录使用 LLaMA-Factory 微调 Qwen2.5-7B-Instruct 模型，并通过 llama.cpp 将微调后的模型转换为 GGUF 格式的全过程，并分享在转换过程中遇到的经典错误及其解决方案。 1.环境准备我们在一台 Linux 服务器上操作，安装了 Conda 用于环境隔离。需要准备以下组件： Python 3.10 LLaMA-Factory（用于微调） llama.cpp（用于格式转换） transformers、peft、accelerate 等依赖库 1.1

Spec-Kit+Copilot打造AI规格驱动开发

作者：算力魔方创始人/英特尔创新大使刘力一，什么是Spec-Kit？在传统的软件开发中，通常先有需求→ 写规格 → 再写代码；规格多数是“指导性文档”，而真正的业务逻辑和边界由程序员“翻译”出来。Spec-Driven Development（规格驱动开发）的理念是，将规格（spec）从“仅供参考”提升为可执行、可驱动的核心工件，直接引导后续设计、计划、任务拆解、实现等流程。spec-kit 是 GitHub 提供的一个工具集 / CLI / 模板库，用来在项目中落地这种流程！ Github: https://github.com/github/spec-kit 二，搭建运行环境本节将指导您从零开发搭建Spec-Kit的运行环境。第一步：在Ubuntu24.04上安装uv： curl -LsSf

ChatGPT免费版与微软Copilot深度对比：技术选型与新手避坑指南

作为一名开发者，最近在项目里想集成一个AI助手，面对市面上眼花缭乱的选择，尤其是免费的ChatGPT和微软力推的Copilot，到底该选哪个？这确实是个让人纠结的问题。我花了一些时间，从技术实现、实际调用到性能表现，做了一次比较深入的对比和测试，希望能给同样有选择困难的朋友们一些参考。 1. 市场定位与典型场景：它们各自擅长什么？简单来说，你可以把ChatGPT免费版看作一个“通用型对话专家”，而微软Copilot更像一个“深度集成在微软生态里的专业副驾驶”。 * ChatGPT免费版：它的核心优势在于强大的通用对话和文本生成能力。无论是头脑风暴、撰写邮件、学习新概念，还是进行开放式的创意讨论，它都能提供质量不错的回应。对于开发者而言，它非常适合用于： * 学习新技术：解释复杂的编程概念或算法。 * 代码解释与重构：将一段代码丢给它，让它解释逻辑或提出优化建议。 * 生成示例代码：根据自然语言描述，快速生成某个功能的代码片段原型。 * 微软Copilot：它的设计初衷就是提升开发和生产效率，与Visual Studio Code、GitHub、Micros