一、环境
之前介绍过本地部署 LLaMaFactory 微调平台的方法,如果你还在为设备问题而烦恼,可以尝试使用云端免费 GPU 资源。
首先注册魔搭社区,绑定个人阿里云账号即可,详情见:https://www.modelscope.cn/my/mynotebook;然后就可免费获得 36 小时 GPU 环境。
配置参数如下:
- CPU:8 核,主要负责数据的调度和预处理
- 内存:32GB,数据从硬盘加载后会暂时存放这里
- 显存:24G
- 操作系统:Ubuntu 22.04
- CUDA:12.8.1,英伟达的并行计算平台,支持最新的 RTX 40 系列或 H 系列显卡
- Python:3.11
- PyTorch:2.9.1,目前最主流的深度学习框架
- ModelScope:1.35.0(预装版本)

安装 LLaMaFactory
执行 git 克隆 llama-factory 项目,运行 pip install -e .。若出现依赖冲突提示,为避免 pip 导致权限混乱,推荐使用虚拟环境(venv)。
创建虚拟环境
python -m venv llmVenv
source llmVenv/bin/activate
deprecate
在虚拟环境中执行升级:pip install --upgrade pip
后续执行 pip install -e . 和 pip install -r requirements/metrics.txt。运行 llamafactory-cli webui 可以启动,并在控制台点击 http://127.0.0.1:7860/ 完成浏览器访问。
二、模型选择
2.1. 模型分类和区别
此处选中一个模型 Qwen3-4B-Base,跳出告警提示。这是因为 Base 表示基座模型,而不是经过指令微调 Instruct 的模型。
两者区别在于:
- Base:基座模型,只完成了预训练,擅长续写文本,不擅长直接理解并回答人类的问题或指令。
- Instruct:指令模型,在基座模型的基础上,使用大量用户指令和期望回答的数据进行微调,能够正确理解并遵循人类指令。

后续选择 Qwen3.5-2B-Base,此时模型名称同样带 Base,却没有弹出告警提示。Qwen3.5 是后训练模型,已经经历了至少一轮指令微调或强化学习(RL),具备对话能力。RL 训练的模型其指令遵循能力通常优于单纯的监督微调(SFT)模型。






















