环境准备

本次实战基于 AutoDL 服务器环境，具体配置如下：

操作系统：Ubuntu 22.04
Python 版本：3.10
PyTorch：2.1.0
CUDA：12.1
显卡：RTX 4090 (24GB)

1. 搭建 LLaMA-Factory 环境

首先创建独立的虚拟环境并激活：

conda create -n llamafactory python=3.10 -y
conda activate llamafactory

将项目克隆至数据盘（例如 /root/autodl-tmp），并以可编辑模式安装依赖：

cd ./autodl-tmp/
git clone https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e .

数据集准备

将准备好的数据集文件拷贝至 data 目录下。假设数据集名为 llamafactory_style_data，需确保目录结构正确。

同时，在 data/data_info.json 中注册该数据集，使用相对路径即可：

"llamafactory_style_data": {
    "file_name": "llamafactory_style_data.json"
}

2. 模型微调流程

下载基座模型

若无法直接访问 HuggingFace，可通过魔塔社区下载。本例选用 Qwen1.5-4B-Chat 作为基座模型。

from modelscope import snapshot_download
model_dir = snapshot_download('Qwen/Qwen1.5-4B-Chat', cache_dir="/root/autodl-tmp/models")

启动 Web UI 进行训练

进入项目目录启动 WebUI：

cd LLaMA-Factory
llamafactory-cli webui

在界面中配置以下关键参数，根据显存情况灵活调整：

模型名称：Qwen1.5-4B-Chat
模型路径：指向本地下载的模型目录
量化等级：8bit（可选，有助于节省显存）
训练轮次：300（建议设置稍大，可随时中断）

PythonAI算法

基于 LLaMA-Factory 微调与 vLLM 部署的大语言模型实战

在 AutoDL 环境中利用 LLaMA-Factory 对 Qwen1.5-4B-Chat 进行微调，并通过 vLLM 实现高效推理。流程涵盖环境配置、数据集准备、WebUI 参数调整及模型导出。针对 vLLM 启动时显存预分配导致的 OOM 问题，提供调整最大序列长度的解决方案。最后通过 Streamlit 搭建本地聊天界面，验证微调后模型的对话能力，并指出模型路径配置的关键点以避免 404 错误。

菩提发布于 2026/4/9更新于 2026/4/241 浏览

环境准备

本次实战基于 AutoDL 服务器环境，具体配置如下：

操作系统：Ubuntu 22.04
Python 版本：3.10
PyTorch：2.1.0
CUDA：12.1
显卡：RTX 4090 (24GB)

1. 搭建 LLaMA-Factory 环境

首先创建独立的虚拟环境并激活：

conda create -n llamafactory python=3.10 -y
conda activate llamafactory

将项目克隆至数据盘（例如 /root/autodl-tmp），并以可编辑模式安装依赖：

cd ./autodl-tmp/
git clone https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e .

数据集准备

将准备好的数据集文件拷贝至 data 目录下。假设数据集名为 llamafactory_style_data，需确保目录结构正确。

同时，在 data/data_info.json 中注册该数据集，使用相对路径即可：

"llamafactory_style_data": {
    "file_name": "llamafactory_style_data.json"
}

2. 模型微调流程

下载基座模型

若无法直接访问 HuggingFace，可通过魔塔社区下载。本例选用 Qwen1.5-4B-Chat 作为基座模型。

from modelscope import snapshot_download
model_dir = snapshot_download('Qwen/Qwen1.5-4B-Chat', cache_dir="/root/autodl-tmp/models")

启动 Web UI 进行训练

进入项目目录启动 WebUI：

cd LLaMA-Factory
llamafactory-cli webui

在界面中配置以下关键参数，根据显存情况灵活调整：

模型名称：Qwen1.5-4B-Chat
模型路径：指向本地下载的模型目录
量化等级：8bit（可选，有助于节省显存）
训练轮次：300（建议设置稍大，可随时中断）

基于 LLaMA-Factory 微调与 vLLM 部署的大语言模型实战

环境准备

1. 搭建 LLaMA-Factory 环境

数据集准备

2. 模型微调流程

下载基座模型

启动 Web UI 进行训练

基于 LLaMA-Factory 微调与 vLLM 部署的大语言模型实战

环境准备

1. 搭建 LLaMA-Factory 环境

数据集准备

2. 模型微调流程

下载基座模型

启动 Web UI 进行训练

更多推荐文章

相关免费在线工具

导出合并后的模型

推理验证

3. vLLM 部署与服务

安装 vLLM

启动服务

构建验证应用

更多推荐文章

相关免费在线工具

基于 LLaMA-Factory 微调与 vLLM 部署的大语言模型实战

环境准备

1. 搭建 LLaMA-Factory 环境

数据集准备

2. 模型微调流程

下载基座模型

启动 Web UI 进行训练

基于 LLaMA-Factory 微调与 vLLM 部署的大语言模型实战

环境准备

1. 搭建 LLaMA-Factory 环境

数据集准备

2. 模型微调流程

下载基座模型

启动 Web UI 进行训练

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

导出合并后的模型

推理验证

3. vLLM 部署与服务

安装 vLLM

启动服务

构建验证应用

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具