LLaMaFactory 基于 ModelScope 免费 GPU 环境微调大模型教程

环境

本文介绍在魔搭社区免费 GPU 环境中部署 LLaMaFactory 进行微调的方法。首先注册魔搭社区并绑定阿里云账号，可获得 36 小时免费 GPU 环境。

环境配置如下：

CPU：8 核
内存：32GB
显存：24G
操作系统：Ubuntu 22.04
CUDA：12.8.1
Python：3.11
PyTorch：2.9.1
ModelScope：1.35.0

[图片]

安装 LLaMaFactory

克隆 llama-factory 项目，执行 pip install -e .。若出现依赖冲突提示，建议使用虚拟环境（venv）以避免权限混乱。

创建虚拟环境

python -m venv llmVenv
source llmVenv/bin/activate

退出虚拟环境使用 deactivate。在虚拟环境中升级 pip：

pip install --upgrade pip

随后执行以下命令安装依赖并启动 WebUI：

pip install -e .
pip install -r requirements/metrics.txt
llamafactory-cli webui

启动后访问 http://127.0.0.1:7860 即可在浏览器中操作。

模型选择

模型分类和区别

选择模型时需注意 Base 与 Instruct 的区别：

Base：基座模型，仅完成预训练，擅长续写文本，不擅长直接理解指令。
Instruct：指令模型，经过指令微调或强化学习，能正确理解并遵循人类指令。

例如 Qwen3.5-2B-Base 虽带 Base 后缀，但作为后训练模型已具备对话能力。

[图片]

加载模型对话

点击【Chat】加载模型，可配置以下参数：

推理引擎

Hugging Face：通用原生框架，适合调试、开发。
vLLM：高性能服务框架，适合高吞吐生产环境。
SGLang：专注结构化生成和复杂推理任务。

推理数据类型

auto：自动选择最优精度。
float32：最精确，显存占用最大。
float16：显存减半，速度更快。
bfloat16：动态范围更大，训练推理更稳定。

额外参数

例如 {"vllm_enforce_eager": true} 为 vLLM 专用参数，若当前引擎为 huggingface 则无需保留，否则可能报错。

[图片]

加载模型后控制台会自动下载对应模型文件。也可手动通过 ModelScope 下载：

modelscope download --model Qwen/Qwen3.5-2B

模型加载成功后即可正常对话。

[图片]

LLaMaFactory 基于 ModelScope 免费 GPU 环境微调大模型教程

环境

安装 LLaMaFactory

创建虚拟环境

模型选择

模型分类和区别

加载模型对话

推理引擎

推理数据类型

额外参数

数据集

更多推荐文章

相关免费在线工具

获取源数据

编写转换脚本

生成数据集

训练

加载并预览数据集

执行微调

导出微调结果

转换 GGUF

创建环境

执行转换

总结

更多推荐文章

相关免费在线工具

LLaMaFactory 基于 ModelScope 免费 GPU 环境微调大模型教程

环境

安装 LLaMaFactory

创建虚拟环境

模型选择

模型分类和区别

加载模型对话

推理引擎

推理数据类型

额外参数

数据集

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

获取源数据

编写转换脚本

生成数据集

训练

加载并预览数据集

执行微调

导出微调结果

转换 GGUF

创建环境

执行转换

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具