大模型 LLM 微调技术进展与热门方法汇总
总结了大模型 LLM 微调的技术进展与热门方法。介绍了 PEFT 参数高效微调技术,包括 Prompt Tuning、Prefix Tuning、LoRA、QLoRA 等主流方案。详细分析了多篇代表性论文在指令微调、领域适配(金融、法律)、中文优化及数据规模化方面的研究成果。文章对比了全参数微调与参数高效微调的差异,阐述了 LoRA 等方法的原理与优势,并结合实际应用场景给出了实施建议,强调数据质量的重要性及 RAG 技术在减少幻觉中的作用。

总结了大模型 LLM 微调的技术进展与热门方法。介绍了 PEFT 参数高效微调技术,包括 Prompt Tuning、Prefix Tuning、LoRA、QLoRA 等主流方案。详细分析了多篇代表性论文在指令微调、领域适配(金融、法律)、中文优化及数据规模化方面的研究成果。文章对比了全参数微调与参数高效微调的差异,阐述了 LoRA 等方法的原理与优势,并结合实际应用场景给出了实施建议,强调数据质量的重要性及 RAG 技术在减少幻觉中的作用。

大模型微调是机器学习中的一项重要技术,旨在帮助降低部署成本,同时进一步提高模型在特定领域的性能。具体来说,大模型微调指的是在现有预训练模型的基础上,根据特定任务数据进行微调,以适应任务的特定需求,以便更好地解决各种实际问题。
目前较为流行的大模型微调技术是 PEFT(Parameter-Efficient Fine Tuning),即参数高效微调。它只对部分参数进行训练,主要有 Prompt Tuning、Prefix Tuning、LoRA、QLoRA 等方法。相比全量微调,PEFT 大幅减少了显存占用和计算资源消耗,使得在消费级显卡上运行大模型成为可能。
核心观点: 随着预训练语言模型规模的增长,逐渐出现了只优化和改变模型的小部分参数的 delta 调整方法。这种参数高效的调整方式可以有效地刺激大规模模型,并极大降低计算和存储成本。
核心观点: 本文通过学习软提示来调节冻结的语言模型。这种提示调优方法随着模型规模的增长而变得更有竞争力,在大模型上几乎匹配全模型调优的性能,还具有鲁棒性和效率优势。

核心观点: 在大规模指令任务上微调语言模型可以极大提升模型在各类设置下的性能和泛化能力,是增强预训练语言模型效果和可用性的通用有效方法。

核心观点: 本文通过在多种公开中文指令数据集上全面评估开源对话模型,发现训练数据的量、质和语言分布等因素对模型性能有重要影响,并通过扩充词表和二次预训练提升了中文领域模型的效果。
核心观点: 本文通过构建真实场景的评估集,发现指令调优后模型性能随训练数据量的提升而持续改进,但在某些任务上提升乏力,需要考虑数据质量选择、模型和方法的扩展。

核心观点: 本文通过领域自适应预训练和大规模指令调优,开发了 ChatHome 这一家居装修领域特定语言模型,并在通用和专业评估集上证明了其在提升领域能力的同时保留通用性的效果。
核心观点: 本文通过在中文指令数据集上比较全参数和 LoRA 调优策略,发现基础模型选择、可学习参数量、训练数据集规模和成本都是影响指令遵循模型性能的关键因素。
核心观点: 本文为 LLaMA 和 Alpaca 设计了高效和有效的中文文本编码方法,通过扩充中文词表、中文数据二次预训练和中文指令微调,显著提升了模型对中文的理解和生成能力。
核心观点: 本文提出了 BloombergGPT,这是一个针对金融领域训练的 500 亿参数语言模型,构建了 3630 亿词元的金融领域数据集进行模型预训练。BloombergGPT 在金融领域任务上明显优于现有模型,同时在通用语言模型基准测试上保持竞争力。
核心观点: 本文提出了迄今为止最大的中文聊天模型轩辕 2.0,基于 BLOOM-176B 架构,并采用混合调优的新型训练方法来缓解灾难性遗忘问题。通过整合通用领域和特定领域知识,轩辕 2.0 能够在中文金融领域提供准确、场景适宜的回复。

核心观点: 本文针对法律领域,探索了如何在持续训练阶段注入领域知识,以及如何设计合适的监督微调任务。为减轻生成时的虚构问题,添加检索模块在回答查询前提取相关法条作为证据。
核心观点: 本文提出开源法律大语言模型 ChatLaw,精心设计法律微调数据集,并结合向量数据库检索与关键词检索的方法有效降低单纯依靠向量检索的不准确率,从模型层面优化虚构问题。
核心观点: 通过只用 1,000 个精选提示训练 65B 参数的 LIMA 模型,发现大语言模型的知识主要在预训练中获得,指令调优数据量很小就可产生高质量输出,表明预训练比调优更为关键。
核心观点: 本文通过在各种开放指令数据集上对 6.7B 到 65B 参数量的调优模型进行系统评估,发现单一数据集难以提升所有能力,不同的数据集可强化特定技能,说明基模型与指令调优数据仍需进一步投入以缩小差距。
作者提出了 LoRA 低秩自适应方法,通过在 Transformer 架构的每个层中注入可训练的低秩分解矩阵,大大减少下游任务的可训练参数量。相比于对 GPT-3 175B 完全微调,LoRA 可以将可训练参数量减少 1 万倍,GPU 内存需求减少 3 倍,但性能与完全微调相当或更好。作者还通过实证研究揭示了语言模型自适应中的秩缺陷问题,释明了 LoRA 的有效性。

作者提出了 adapter 模块进行迁移,相较于每个任务都要微调整个模型的昂贵方案,adapter 为每个任务只增加很少的参数。Tasks 可以添加而不需要重新训练以前的模型,原网络的参数保持固定,实现了高度的参数共享。在 26 项文本分类任务包括 GLUE 基准测试上,adapter 取得接近 SOTA 的性能。
作者提出基于 adapter 的 MAD-X 框架,通过学习模块化的语言和任务表示,实现对任意任务和语言的高可移植性和参数高效迁移,弥补了当前多语言预训练模型如 BERT 和 XLM-R 在低资源语言上的弱点。
作者提出了 prefix-tuning,这是适用于自然语言生成任务的微调方法的一种轻量化替代方案,可以固定语言模型的参数,仅优化一个小的连续的特定任务向量 (称为 prefix)。prefix-tuning 借鉴提示学习的思想,后续的 token 可以参照 prefix。在 GPT-2 的表格到文本生成和 BART 的摘要任务上,只学习 0.1% 的参数,prefix-tuning 在充分数据下获得了与微调相当的性能。
作者提出了 P-tuning 方法,使用可训练的连续提示嵌入,使 GPT 在自然语言理解 (NLU) 任务上优于或匹敌相似规模的 BERT。在 LAMA 知识探测基准测试上,最佳 GPT 无需在测试时提供额外文本就可以恢复 64% 的世界知识。P-tuning 也提升了 BERT 在少样本和全监督场景的表现,大大减少了提示设计的需求。
在实际应用中,选择合适的微调策略至关重要。对于资源受限的场景,LoRA 和 QLoRA 是首选,它们允许在单卡 GPU 上完成大模型微调。对于中文场景,建议优先选择经过中文词表扩充和二次预训练的基座模型,如 ChatGLM 或 Qwen 系列。
此外,数据质量往往比数据数量更重要。LIMA 的研究表明,精心筛选的高质量指令数据足以让模型达到优秀水平。在垂直领域(如金融、法律),结合 RAG(检索增强生成)技术可以有效减少幻觉问题,提高回答的准确性。
未来,随着模型规模的进一步扩大,参数高效微调技术将更加普及。开发者应关注多模态微调、RLHF(人类反馈强化学习)以及 Agent 集成等前沿方向,以构建更加智能和实用的 AI 应用。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online