大模型微调常见方法总结
本文总结了大模型微调的常见技术方法,涵盖从基础原理到高级对齐策略。内容包括 Transformer 架构解析、全量与高效微调(如 LoRA、QLoRA)、量化压缩技术(ZeroQuant、SmoothQuant)、强化学习人类反馈(RLHF、PPO)及直接偏好优化(DPO)。此外还涉及 Prefix Tuning、Adaptor Tuning、Flash Attention 等前沿优化方案,以及增量学习与灾难性遗忘问题。旨在帮助开发者梳理知识体系,掌握核心算法实现与应用场景。


