环境
注册魔搭社区并绑定个人阿里云账号,可获取免费 GPU 环境(36 小时)。 配置如下:
- CPU:8 核
- 内存:32GB
- 显存:24GB
- 操作系统:Ubuntu 22.04
- CUDA:12.8.1
- Python:3.11
- PyTorch:2.9.1
- ModelScope:1.35.0

安装 LLaMaFactory
克隆 llama-factory 项目,执行 pip install -e .。若出现依赖冲突提示,建议使用虚拟环境(venv)以避免权限混乱。
创建虚拟环境
创建虚拟环境:python -m venv llmVenv
激活虚拟环境:source llmVenv/bin/activate
退出虚拟环境:deactivate
在虚拟环境中升级 pip:pip install --upgrade pip
后续执行 pip install -e . 和 pip install -r requirements/metrics.txt。
执行 llamafactory-cli webui 启动服务,访问 http://127.0.0.1:7860 完成浏览器访问。
模型选择
2.1. 模型分类和区别
此处选中模型【Qwen3-4B-Base】,系统提示告警。这是因为【Base】表示基座模型,而非经过指令微调的【Instruct】模型。
- Base:基座模型,仅完成预训练,擅长续写文本,不擅长直接理解并回答人类指令。
- Instruct:指令模型,在基座基础上使用大量数据微调,能够正确理解并遵循人类指令。

后续选择【Qwen3.5-2B-Base】,虽带【Base】后缀但未弹出告警。Qwen3.5 是后训练模型,已经历指令微调或强化学习(RL),具备对话能力。

2.2. 加载模型对话
点击【Chat】加载模型,参数说明如下:
推理引擎
- Hugging Face:transformers 库,通用原生推理框架,适合调试、开发。
- vLLM:高性能服务框架,专为高吞吐、低延迟设计,适合生产环境。
- SGLang:较新框架,专注于结构化生成和复杂推理任务。
推理数据类型
- auto:自动选择最优精度。
- float32:最精确,显存占用最大。
- float16:显存减半,速度更快。













