LLaMA-Pro:基于块扩展的大语言模型微调方案
LLaMA-Pro 是一种新型后预训练方法,通过在现有大型语言模型中添加额外的 Transformer 块来增强特定领域性能。该方法利用身份块(Identity Block)在初始化时保持恒等映射,确保不牺牲原有通用能力。通过冻结原始块并仅微调新增块,结合指令微调,模型在编程、数学及通用任务上表现优异。相比传统指令调优和参数高效微调,LLaMA-Pro 有效平衡了领域适应与知识保留。

LLaMA-Pro 是一种新型后预训练方法,通过在现有大型语言模型中添加额外的 Transformer 块来增强特定领域性能。该方法利用身份块(Identity Block)在初始化时保持恒等映射,确保不牺牲原有通用能力。通过冻结原始块并仅微调新增块,结合指令微调,模型在编程、数学及通用任务上表现优异。相比传统指令调优和参数高效微调,LLaMA-Pro 有效平衡了领域适应与知识保留。

本文介绍了一种名为 LLaMA-Pro 的新型后预训练方法,旨在增强大型语言模型(LLMs)在特定领域的性能,同时保持其原有的通用能力。该方法通过在 Transformer 架构中增加深度来扩展模型,在不牺牲原有性能的前提下,显著提升模型在编程、数学和一般语言任务中的表现。LLaMA-Pro 基于 LLaMA2-7B 构建,并引入了指令版 LLaMA-Pro-Instruct,在各种基准测试中达到了先进性能。
传统的微调方法如指令调优(Instruction Tuning)和参数高效调优(Parameter-Efficient Fine-Tuning, PEFT,例如 LoRA)虽然有效,但存在一定缺陷:
LLaMA-Pro 的核心思想是在现有的 LLM 中添加额外的 Transformer 块以增加模型深度。这些新增的块在初始化时被设置为零,并在特定领域的语料库上进行微调。这种设计使得模型能够在学习新知识的同时,避免对原有知识的遗忘。

如图 (a) 所示,模型从预训练阶段开始;(b) 展示了骨干扩展过程,身份块被堆叠在原始组之上,经过后预训练的模型可继续用于指令调优。
在现有的 LLaMA 模型中,每组 Transformer 块之后添加一个 Identity Block(身份块)。这些块在初始化时被设置为零,以确保模型在扩展后的初始状态下保持相同的输出行为。
将原始模型的 Transformer 块分成多个组。对于每个组,创建原始块的上层副本(即身份块),并将其堆叠在原始组之上。该过程逐层进行,以保持 Transformer 模型的结构特性。
身份块被定义为恒等函数,即对于任何输入,身份块输出的值与输入相同。这确保了在添加新块后,模型的输出行为不会发生突变。
新添加的块中的线性层被初始化为零,以实现身份映射。这样,在训练初期,这些新块不会影响模型输出,随着训练进行,它们可以学习新的知识,而不会影响或覆盖原有的知识。
在添加新块之后,只对新增的块进行微调,而保持原始的块冻结。这种策略确保模型在增强特定领域能力的同时,不会牺牲其原有的通用能力。
使用 domain-specific 的语料库对扩展后的模型进行微调。在此过程中,只更新新添加的块,而原始的块保持不变,从而最大化效率并减少灾难性遗忘。

实验结果显示,LLaMA-Pro 在通用语言任务上保持了高水平的表现,同时在编程和数学任务上的性能得到了显著提升。
不同训练策略的比较表明,在 Add 8 Block 这一超参数设置下,综合分数最高。这表明适度的块扩展能够在不显著增加计算负担的情况下,有效提升模型在特定领域的表现。
LLaMA-Pro 提出了一种有效的模型扩展范式,通过身份块和后预训练机制,解决了传统微调方法中领域适应与通用能力保留之间的矛盾。该方法为后续大模型的垂直领域优化提供了新的思路,特别是在需要兼顾通用性与专业性的场景下具有广泛应用价值。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online