跳到主要内容大模型 LLM 微调技术论文精选汇总 | 极客日志PythonAI算法
大模型 LLM 微调技术论文精选汇总
汇总了 12 篇关于大模型 LLM 微调技术的核心论文,涵盖高效微调、指令调优、多模态理解及软件工程应用等方向。内容包括参数高效微调、视觉 - 语言指令调优、DreamBooth 个性化生成等关键技术,并提供了实施建议与总结。旨在帮助开发者系统掌握 LLM 微调的理论基础与实践经验,优化特定场景下的模型性能。
云间漫步1 浏览 随着人工智能技术的快速发展,大型预训练模型(Large Language Models, LLM)在图像识别、自然语言处理等多个领域展现出卓越性能。然而,通用模型往往难以直接满足特定垂直场景的需求,因此针对特定任务和数据集进行微调(Fine-tuning)成为关键步骤。
本文整理了 12 篇关于大模型 LLM 微调技术方法的核心论文,涵盖了高效微调、指令调优、多模态理解及软件工程应用等方向。这些资料提供了深入的分析、实践经验和技术突破,适合希望系统掌握 LLM 微调技术的开发者与研究人员参考。
1. Efficient Large Language Models: A Survey
本文对高效 LLMs 研究的发展进行了系统而全面的回顾。文章将文献整理成由三个主要类别组成的分类法:从模型中心、数据中心和框架中心的角度,涵盖了不同但相互关联的高效 LLMs 主题。同时,从以模型为中心和以数据为中心的双重视角,回顾了 LLMs 在算法层面和系统层面的高效技术,为后续研究提供了清晰的路线图。
2. Parameter-efficient fine-tuning of large-scale pre-trained language models
本文探索了增量式微调方法在预训练模型中的应用。作者首先提出了两个框架,分别从优化和最佳控制角度分析增量式微调。实验部分在 100 多个 NLP 任务上进行了广泛测试,评估了任务级可迁移性、Delta-tuning 方法的组合及规模,为该方法的设计提供了坚实的理论依据。
3. Vision-Language Instruction Tuning: A Review and Analysis
本文系统性地回顾了多模态 LLMs 中最新的 VLIT(Vision-Language Instruction Tuning)设置及相应数据集,并深入分析了其设计背后的内在动机。文中首次提供了对现有 VLIT 数据集的详细多角度分类,识别了高质量 VLIT 数据应具备的特征,并将这些特征作为指导原则纳入现有的数据构建过程。
4. Scaling Instruction-Finetuned Language Models
本文专注于扩大任务数量、模型规模和思维链数据上的微调。研究发现,这些微调显著提升了不同模型(如 PaLM、T5、U-PaLM)在各种评估基准上的性能。例如,指令微调后的 Flan-PaLM 540B 大幅超越了原始 PaLM 540B。此外,文中还公开了 Flan-T5 的检查点,其在少样本测试中即便与大模型相比也具有强劲表现。
5. BitFit: Simple Parameter-efficient Fine-tuning for Transformer-based Masked Language-models
BitFit:对基于 Transformer 的掩码语言模型进行简单的参数高效微调
文中提出了 BitFit,一种只调整模型偏置项的稀疏微调方法。研究表明,在小到中型数据量下,BitFit 应用于预训练的 BERT 模型与全模型微调相比具有竞争力,有时效果更佳。在大数据量下,它与其他稀疏微调方法相当,是一种轻量级的优化选择。
6. Training and fine-tuning large language models
本文解释了 LLM 是如何被训练和微调来创建像聊天 GPT 这样的系统的。内容讨论了模型的预训练、少量学习(Few-shot Learning)、监督微调(SFT)、来自人类反馈的强化学习 (RLHF) 和直接偏好优化 (DPO)。作者在数学上精确地描述了这些概念,并提供了为什么使用特定技术的见解。
7. Large Language Models for Software Engineering: A Systematic Literature Review
本文探讨了 LLM 在软件工程中的应用,用以优化工作流和成果。文中解决了四个核心研究问题:RQ1 分类了 SE 任务中的 LLM 及其特点;RQ2 讨论了数据管理的方法对成功实施 SE LLM 的重要性;RQ3 分析了评估和优化 LLM 性能的策略;RQ4 则聚焦于 LLM 在 SE 中的成功应用案例。
8. POUF: Prompt-oriented unsupervised fine-tuning for large pre-trained models
本文中提出了一种无监督微调框架,直接在未标记的目标数据上进行微调。此方法适用于语言增强视觉模型和遮蔽语言模型,通过对齐提示和目标数据的离散分布。在图像分类、情感分析和自然语言推理等任务上的广泛实验表明,这种方法在多项任务上均优于基准模型。
9. Supervised Contrastive Learning for Pre-trained Language Model Fine-tuning
文中为自然语言理解分类模型的微调阶段提出了一个监督对比学习(SCL)目标,它能更好地捕捉类内相似性和类间对比。结合交叉熵损失,SCL 显著提升了在 GLUE 基准的少样本学习上的性能,且不需要特殊架构或额外数据。这种微调策略增强了模型对噪声的鲁棒性,改进了对有限标记数据任务的泛化能力。
10. Towards Better Instruction Following Language Models for Chinese: Investigating the Impact of Training Data and Evaluation
面向更好的中文指令跟随语言模型:探究训练数据和评价的影响
本文分析了训练数据因素对对话模型性能的影响,包括数量、质量和语言分布。文中使用 1000 个样本评估集评估了各种模型,涵盖 9 个真实场景,目的是通过定量分析提供有价值的见解,推进开源聊天模型的发展。此外,还扩展了 LLaMA 的词汇表,进行了二次预训练以适应中文语境。
11. DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation
DreamBooth:微调文本到图像扩散模型,用于主题驱动的生成
文中提出了一种文本到图像扩散模型的'个性化'新方法,可以在不同场景中合成具有个性化特征的逼真图像。这种方法利用语义先验和类特定先验保持损失技术,能够在多样化的环境中合成主体,同时保留其关键特征。此技术适用于多种任务,如主体再上下文化、文本引导视图合成和艺术渲染。
12. Visual Instruction Tuning
本文中引入 LLaVA:大型语言和视觉助手,一个端到端训练的大型多模态模型,用于连接视觉编码器和 LLM 以实现通用视觉和语言理解。LLaVA 展现出令人印象深刻的多模态聊天能力,并在合成多模态指令跟随数据集上与 GPT-4 相比得分相对提高了 85.1%。在 Science QA 上微调时,LLaVA 和 GPT-4 的协同作用实现了 92.53% 的新状态-of-the-art 准确率。
实施建议与总结
在进行大模型微调实践时,除了参考上述理论论文,还需注意以下工程细节:
- 数据准备:高质量的指令数据是微调成功的关键。需确保数据的多样性、准确性及标注质量,避免引入偏见。
- 硬件资源:根据模型参数量选择合适的 GPU 显存配置。对于大规模模型,建议使用分布式训练或参数高效微调(PEFT)技术以降低显存占用。
- 评估指标:建立多维度的评估体系,不仅关注准确率,还需考量响应速度、逻辑一致性以及特定领域的专业度。
- 持续迭代:微调并非一蹴而就,需根据实际反馈不断调整超参数和训练策略。
以上 12 篇论文构成了当前 LLM 微调技术的重要基石,涵盖了从基础理论到前沿应用的完整链路。建议读者结合自身业务场景,优先阅读相关综述类论文建立知识框架,再深入具体技术论文进行复现与优化。
相关免费在线工具
- 加密/解密文本
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
- RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
- Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
- curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
- Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
- Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online