Firefly vs LLaMA Factory 全方位对比表 + 生物医药垂类微调选型建议
一、核心维度对比表格
| 对比维度 | Firefly(流萤) | LLaMA Factory |
|---|---|---|
| 开发主体 | 个人开源:前 Shopee NLP 工程师,中山大学硕士 | 社区开源:hiyouga 核心维护,全球开源社区协同迭代 |
| 项目定位 | 聚焦中文大模型的轻量化训练框架 + 配套中文优化模型 | 通用型全栈大模型微调框架,无语言/模型偏向,极致兼容 |
| 支持基座模型 | 以中文友好模型为主(Llama 系列、Qwen、ChatGLM、Firefly 自训模型),覆盖有限但深度适配 | 全主流开源模型全覆盖(Llama、Qwen、Mistral、DeepSeek、GLM、Yi、Firefly 等),几乎无适配成本 |
| 支持微调方式 | 基础 SFT、LoRA/QLoRA、增量预训练,进阶对齐方法较少 | SFT、DPO/IPO/KTO、RLHF、预训练、多模态微调,全流程对齐方案完整 |
| 中文优化 | 原生深度优化:中文分词、语料、表达逻辑专项适配,中文生成质感最优 | 通用框架无原生中文特化,依赖基座模型本身中文能力,可通过数据弥补 |
| 使用门槛 | 配置简洁、脚本轻量化,中文新手教程充足,上手快 | UI/命令行双模式,模板化 YAML 配置,零代码 WebUI,新手友好度拉满 |
| 硬件显存优化 | 支持 4/8bit 量化、QLoRA,单卡消费级显卡可跑 7B~13B 模型 | 量化、LoRA、梯度检查点、多卡并行等优化更全面,大参数模型适配性更强 |
| 文档&社区 | 中文文档完善,社区答疑渠道丰富,问题响应较快 | 国内外社区双活跃,Issue/教程/二次开发案例极多,复杂问题解决方案丰富 |
| 部署导出 | 支持基础量化导出、本地推理,生产级部署工具链简易 | 多格式导出(LoRA 合并、GGUF、GPTQ、AWQ),对接主流推理框架,生产部署完整 |
| 扩展性 | 聚焦中文 SFT 场景,自定义扩展、多任务适配能力一般 | 插件化架构,可自定义数据集格式、训练策略、新增模型,扩展性极强 |
| 维护频率 | 稳定迭代,更新节奏偏个人开源节奏 | 高频更新,新模型、新算法第一时间集成 |
| 适用核心人群 | 中文垂类开发者、个人科研、轻量化中文对话任务 | 全场景开发者、多模型测试、进阶对齐、复杂垂类、工程化落地 |
二、核心差异一句话总结
- Firefly:专精中文场景,小而精,配置简单,中文生成效果上限高,适合纯中文垂类快速微调。
- LLaMA Factory:全能通用框架,大而全,兼容所有模型与微调方法,社区生态无敌,适合试错、多模型对比、进阶训练。
三、通用场景快速选型规则
- 纯中文对话/文案/国内垂类任务 → 优先 Firefly
- 多模型轮换测试、需 DPO/RLHF 进阶对齐、多模态微调 → 必选

