6.llamafactory项目介绍与安装部署

优质文章学习记录

06 Apr 2026 — 7 min read

一、学术资源加速

服务说明：AutoDL提供学术资源加速服务，主要解决GitHub和HuggingFace访问速度慢的问题，但仅限学术用途且不承诺稳定性
加速地址：包含github.com、githubusercontent.com、githubassets.com、huggingface.co等域名
终端配置：
注意事项：
- 建议不需要时关闭加速，可能影响正常网络
- 关闭命令：

二、主流微调框架介绍

1. Transformer

生态地位：Hugging Face核心库，NLP领域最广泛使用的基础框架
技术特点：
- 支持全参数微调
- 兼容PEFT库扩展
优势：
- 生态系统最完善，社区活跃
- 与PyTorch/TensorFlow无缝集成
- 模型和教程资源丰富
适用场景：中小规模模型实验、研究和开发，微调入门首选

2. PEFT

技术定位：参数高效微调标准库
核心方法：
- LoRA
- Prefix-tuning
- AdaLoRA
- Prompt Tuning
突出优势：
- 计算和存储成本极低
- 与Transformers完美集成
- 操作简单易用
局限性：仅支持单卡微调，不适合分布式训练
适用场景：资源受限环境（如单卡），需高效适配多任务的场景

3. LLaMA-Factory

产品特色：低代码/无代码快速微调框架
技术集成：
- 多种微调方法（含LoRA等）
- 集成优化技术
用户体验：
- 提供友好Web UI界面
- 支持拖拽式参数配置
- 无需深厚代码功底
典型应用：
- 快速原型验证
- 非技术人员微调
- 本课程主要教学框架

4. ModelScope

平台定位：阿里"模型即服务"(MaaS)平台
技术特点：
- 多模态模型支持
- 训练-评估-部署全流程
特色优势：
- 中文场景优化
- 企业级生产环境支持
适用场景：需要多模态模型和完整流水线的企业用户

5. MS-SWIFT

规模支持：超大规模模型微调
核心技术：
- LoRA/QLoRA
- 分布式训练
- 量化技术
模型覆盖：
- 支持500+LLM
- 200+多模态模型
适用场景：需要微调超大规模模型或追求极致性能的生产部署

6. Unsloth

技术突破：动态量化微调（2024年新技术）
核心优化：
- LoRA/QLoRA底层重构
- 训练速度提升2倍
- 显存占用大幅降低
显著特点：
- 量化微调几乎无损精度
- 兼容Hugging Face生态
当前局限：仅支持单卡微调
适用场景：
- 计算资源严格受限
- 追求训练效率极限
- 20B参数以下模型

7. 小结

框架选择指南：
- 入门实验：Transformers+PEFT组合
- 快速实现：LLaMA-Factory
- 企业多模态：ModelScope/MS-SWIFT
- 资源受限：Unsloth
发展趋势：Unsloth若能支持分布式训练，可能成为未来主导框架
课程选择：本课程以LLaMA-Factory作为主要教学框架

三、LLaMA-Factory项目介绍

项目地址: https://github.com/hiyouga/LLaMA-Factory
项目热度: 目前已有57.2k stars，287 watching和7k forks，从2023年开始人气持续快速增长

1. 支持的模型

覆盖范围: 支持几乎所有主流大语言模型，包括：
- Baichuan 2 (7B/13B)
- BLOOM/BLOOMZ (560M-176B)
- DeepSeek系列 (1.5B-671B)
- Gemma系列 (2B-27B)
- GLM系列 (9B-355B)
- GPT系列 (0.1B-120B)
- 最新支持的GPT-OSS (20B/120B)
模板支持: 每个模型都有对应的对话模板(chat template)

2. 安装要求

核心依赖:
- Python: 3.9(最低)/3.10(推荐)
- PyTorch: 2.0.0(最低)/2.6.0(推荐)
- Transformers: 4.49.0(最低)/4.50.0(推荐)
可选组件:
- CUDA: 11.6(最低)/12.2(推荐)
- Flash-attn: 2.5.6(最低)/2.7.2(推荐)
环境适配: 部分功能需要特定架构的显卡支持，如V100显卡不支持某些功能

3. 硬件要求

全精度训练:
- 32位: 7B模型需要120GB显存
- 16位(bf16): 7B模型需要60GB显存
高效微调方法:
- LoRA/Freeze: 7B模型仅需16GB显存
- QLoRA 8-bit: 7B模型需10GB显存
- QLoRA 4-bit: 7B模型仅需6GB显存

4. 安装

先在autodl购买实例
- 在autodl进入jupytelLab-终端
下载
- 输入
  - ls
  - cd autodl-tmp
  - git clone --depth 1 https://github.com/hiyouga/LlamaFactory.git
进入：
虚拟环境建议: 本地使用建议创建conda虚拟环境
conda create -n llamafactory python=3.10
安装
拓展模块安装
- flashAttention库----加速
  - pip install flash-attn --no-build-isolation #注意：V100不支持该库
- bitsandbytes库--量化库
  - pip install bitsandbytes
- deepspeed库---做分布式微调
  - pip install deepspeed==0.12.3
- accelerate库--加速
  - pip install accelerate

pip install -e . pip install -r requirements/metrics.txt

cd LlamaFactory

四、llama factory项目文件介绍

/data文件夹
- 存放数据集的文件夹，可以用开源数据集，也可以自己写数据集
/examples文件夹
- 提供了训练（deepspeed,lora,qlora,fsdp)、模型合并、推理等示例代码，可以该参数直接用
/scripts文件夹
- 存放微调、训练、模型合并、评估等脚本的文件夹
/docker文件夹
- 各类显卡的docker部署
/evaluation文件夹
- 评估模型性能数据集，脚本

五、启动llama

在终端输入：GRADIO_SERVER_PORT=6006 llamafactory-cli webui
打开powershell
点击那个地址就可以进入

密码输入的时候是不显示的，直接输入完即可

六、预训练模型下载

1. 模型选择与下载准备

目标模型: 本次微调使用的是通义千问3-4B-Base模型
模型特点:
- 是Qwen系列最新一代大型语言模型
- 提供密集型和专家混合(MoE)两种架构
- 预训练使用了119种语言的36万亿个标记
- 语言覆盖范围是Qwen2.5的三倍
- 包含编码、STEM、推理等丰富的高质量数据

2. 下载方法

魔塔社区：https://www.modelscope.cn/models
- 在终端新开一个窗口
- pip install modelscope
- cd
- cd autodl-tmp #下载到数据盘
- modelscope download --model Qwen/Qwen3.5-4B-Base --cache_dir ./

搭建恋爱AI：用 Nexent 上传多风格文档构建知识库，打造温柔恋爱陪伴助手

文章目录 * 一、前言：为什么做一个恋爱陪伴类智能体？ * 二、模型接入：批量导入，一次配置终身复用 * 三、多格式知识库实践：MD/Word/PPT 全场景测试 * 1. 知识库文件准备 * 2. 上传与向量化处理 * 3. 多格式知识库总结能力体验 * 四、智能体开发：一键生成提示词，快速配置 * 参考示例： * 五、调试与对话效果：多格式知识库的实际调用 * 测试场景 1：询问初识沟通技巧 * 测试场景 2：询问吵架后如何化解 * 六、真实感悟：Nexent 哪里好用？哪里还能优化？ * 个人认为比较好的点 * 觉得可以提升的地方一、前言：为什么做一个恋爱陪伴类智能体？在快节奏的生活里，很多人在恋爱中会遇到沟通卡顿、矛盾不知如何化解、情绪无处安放的问题。通用大模型给出的建议要么空泛鸡汤，要么缺乏边界感，

阿里出了个 AI JetBrains 编程插件 Qoder，使用了一周，值得上车

上周在群里看到有人说阿里出了个叫 Qoder 的 AI 编程工具，说是直接支持 JetBrains 全系 IDE，不用再装 Cursor 切来切去了。我平时写后端用的就是 IntelliJ IDEA，当时就去下了一个试试。用了一周，把能测的功能基本过了一遍，这篇文章把我的真实情况写出来，顺便把安装怎么做也说清楚。 — Qoder 是什么，和通义灵码有什么关系先把这个问题说清楚，因为很多人第一反应是：阿里不是已经有通义灵码了吗，又出一个？这两个确实都是阿里做的，但不是一回事。通义灵码是早期的阿里 AI 编程工具，定位是代码补全和问答助手，功能相对基础；Qoder 是 2025 年 8 月 22 日对外正式发布的新产品，定位是"Agentic 编码平台"，面向海外开发者，走的是另一条路线。官方的说法是，

字节开源 DeerFlow 2.0——登顶 GitHub Trending 1，让 AI 可做任何事情

打开 deerflow 的官网，瞬间被首页的这段文字震撼到了，do anything with deerflow。让 agent 做任何事情，这让我同时想到了 openclaw 刚上线时场景。字节跳动将 DeerFlow 彻底重写，发布 2.0 版本，并在发布当天登上 GitHub Trending 第一名。这不是一次功能迭代，而是一次从"深度研究框架"到"Super Agent 运行时基础设施"的彻底蜕变。背景：从 v1 到 v2，发生了什么？ DeerFlow（Deep Exploration and Efficient Research Flow）

OpenClaw：能真正干活的AI智能体，从聊天到执行的本地自动化革命

在AI大模型遍地开花的今天，我们早已习惯了和AI对话、问方案、写文案。但大多数AI仍停留在“只说不做”的阶段——给你思路，却不能动手落地；给你代码，却不能帮你部署运行。 2026年初，一款名为OpenClaw的开源AI智能体横空出世，凭借“本地优先、自主执行、全平台打通”的硬核能力，在GitHub快速收获超高关注，成为AI Agent领域的现象级项目。它不只是聊天机器人，而是能接管你电脑、帮你完成真实任务的数字助理。今天，我们从技术本质、核心架构、落地场景与快速上手，带你全面读懂这只“会干活的小龙虾”。一、OpenClaw到底是什么？ OpenClaw（曾用名Clawdbot、Moltbot）是由资深开发者Peter Steinberger打造的开源自主AI代理，核心定位一句话：用自然语言指挥电脑，让AI替你完成真实操作。它和传统聊天AI的本质区别： * ChatGPT/Claude：云端对话，输出文本与建议 * OpenClaw：本地运行，拥有系统权限，可操作文件、控制浏览器、