Llama 开源家族演进:从 Llama-1 到 Llama-3 深度解析
在 AI 领域,大模型的发展正以前所未有的速度推进技术的边界。北京时间 4 月 19 日凌晨,Meta 官宣了 Llama-3,作为继 Llama-1、Llama-2 和 Code-Llama 之后的第三代模型,它在多个基准测试中实现了全面领先。
纵观 Llama 系列,从版本 1 到 3,展示了大规模预训练语言模型的演进及其在实际应用中的显著潜力。这些模型不仅在技术上不断刷新纪录,更在商业和学术界产生了深远影响。对 Llama 模型不同版本进行系统对比,不仅能揭示技术进步的具体细节,也能帮助我们理解这些高级模型如何解决现实世界的复杂问题。
1. Llama 进化史
1.1 Llama-1 系列
Llama-1 是 Meta 在 2023 年 2 月发布的大语言模型,当时性能非常出色。它包含 7B、13B、30B 和 65B 四个参数量版本,均在超过 1T token 的语料上进行了预训练。其中,最大的 65B 参数模型在 2,048 张 A100 80G GPU 上训练了近 21 天,并在大多数基准测试中超越了具有 175B 参数的 GPT-3。
由于模型开源且性能优异,Llama 迅速成为开源社区中最受欢迎的大模型之一,以 Llama 为核心的生态圈由此崛起。众多研究者将其作为基座模型,进行了继续预训练或者微调,衍生出了众多变体模型,极大地推动了大模型领域的研究进展。

唯一美中不足的是,因为开源协议问题,Llama-1 不可免费商用。
1.2 Llama-2 系列
时隔 5 个月,Meta 在 2023 年 7 月发布了免费可商用版本 Llama-2,包含 7B、13B、34B 和 70B 四个参数量版本,除了 34B 模型外,其他均已开源。

相比于 Llama-1,Llama-2 将预训练的语料扩充到了 2T token,同时将模型的上下文长度从 2,048 翻倍到了 4,096,并引入了分组查询注意力机制(Grouped-Query Attention, GQA)等技术。
有了更强大的基座模型,Meta 通过进一步的有监督微调(SFT)、基于人类反馈的强化学习(RLHF)等技术对模型进行迭代优化,并发布了面向对话应用的微调系列模型 Llama-2 Chat。
通过'预训练 - 有监督微调 - 基于人类反馈的强化学习'这一训练流程,Llama-2 Chat 不仅在众多基准测试中取得了更好的模型性能,同时在应用中也更加安全。
随后,得益于 Llama-2 的优异性能,Meta 在 2023 年 8 月发布了专注于代码生成的 Code-Llama,共有 7B、13B、34B 和 70B 四个参数量版本。

1.3 Llama-3
2024 年 4 月,Meta 正式发布了开源大模型 Llama 3,包括 8B 和 70B 两个参数量版本。除此之外,Meta 还透露,400B 的 Llama-3 还在训练中。















