Llama-Factory 大模型微调实战指南
随着大模型应用加速,企业尝试让通用模型适应业务逻辑(如客服、法律文书)。但微调常面临脚本复杂、显存占用高等问题。Llama-Factory 提供开源解决方案,支持 WebUI 可视化操作,无需编写代码即可完成专业级定制。
环境搭建
核心依赖为 Python 3.9+ 和 PyTorch 2.0+。在云服务器或本地 GPU 工作站执行以下命令:
git clone https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -r requirements.txt
若网络较慢,建议添加国内镜像源:
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
启动 WebUI:
python src/webui.py --server-name 0.0.0.0
终端输出 http://127.0.0.1:7860 即表示服务就绪。界面原生支持中文切换。
模型与配置选择
-
模型选择:支持 LLaMA、Qwen、Baichuan、ChatGLM、Mistral、Gemma 等主流架构。以
llama3-8b为例,填入本地路径或 HuggingFace repo ID。注意:路径需包含完整模型文件结构,特别是
config.json和tokenizer.model。 -
微调方法:提供全参数微调、冻结微调和 LoRA/QLoRA。个人开发者推荐 LoRA;显存不足用户可选 QLoRA(4bit),可在单卡上微调大模型。
-
加速选项:勾选
flashattn2和unsloth可提升推理速度。 -
提示词模板:根据数据格式选择
alpaca(instruction-input-output)或chatml/zephyr(多轮对话)。务必确保数据格式与模板匹配。 -
RoPE 插值:默认支持 8K 上下文,可通过
linear或dynamic缩放扩展至 32K,适用于长文档任务。
数据准备
所有数据集需注册在 dataset_info.json 配置文件中。例如:
{
"essay_grading": {
"file_name": "grading_data.jsonl",
"columns":

