LLaMA3:开源战胜闭源意味着什么
LLaMA3-405B 的模型效果已经赶上目前最好的闭源模型 GPT-4o 和 Claude-3.5,这可能是未来大模型开源与闭源的拐点。本文从 LLaMA3 的模型结构、训练过程与未来影响等方面深入分析。
LLaMA3-405B 模型性能已媲美 GPT-4o 和 Claude-3.5,标志开源与闭源拐点。文章分析了其模型结构升级(SwiGLU、RMSNorm、RoPE)、训练流程(数据配比、预训练、DPO 对齐)及行业影响。开源模型打破技术垄断,促进生态多样性、降低成本并提升安全性,推动 AI 向民主化发展。

LLaMA3-405B 的模型效果已经赶上目前最好的闭源模型 GPT-4o 和 Claude-3.5,这可能是未来大模型开源与闭源的拐点。本文从 LLaMA3 的模型结构、训练过程与未来影响等方面深入分析。

LLaMA3 的模型结构如上图所示,这基本已经成为目前 Dense LLM 模型的标准结构了。很多采取 MOE(Mixture of Experts)结构的 LLM 模型,其变化无非是把上图的 FFN 模块里的单个 SwiGLU 模块拓展成 K 个并联的 SwiGLU 模块,形成多个专家,再加上一个门控网络来选择当前 Token 走这么多专家里的哪几个。目前很少有结构能逃脱 Transformer 架构的影响,对比 Transformer 的部件升级主要有以下三点:
FFN 层包括两个线性变换,中间插入一个非线性激活函数。最初的 Transformer 架构采用了 ReLU 激活函数,后来演变为 GELU(ReLU 的平滑版本)。但在 LLaMA3 中,激活函数变为了 SwiGLU,引入了更多的权重矩阵。
SwiGLU 结合了 Sigmoid 门控机制和 GLU 结构,公式上通常表示为:
SwiGLU(x) = Swish(xW) ⊗ (xV)
其中 Swish 是激活函数,⊗ 表示逐元素乘法。这种设计在实验中证明了比单纯使用 GELU 或 ReLU 具有更强的表达能力和收敛速度。
归一化的位置由后变前,同时计算公式也不同。
RMSNorm 减少了计算量,提高了训练效率,特别是在长序列训练中表现更优。
由三角函数计算的绝对位置编码改为了 RoPE(Rotary Positional Embeddings),解决了长文本预测外推性问题。RoPE 通过旋转矩阵将位置信息注入到 Query 和 Key 向量中,使得模型能够更好地处理超出训练长度的上下文。

其余的变化就是模型层数横向及纵向的叠加。比如 405B 模型采用了 126 层的网络结构,RoPE theta 调到了 50 万等等。
做细粒度的打标签工作,然后根据标签采样,最终敲定了:50% 通用数据、25% 数理数据、17% 代码数据、8% 多语言数据。这个过程在实际操作过程中应该很复杂,因为需要不断的尝试实验,最终选择效果最好的模型。
本文长度从 8K 逐步增加到支持 128K 的上下文窗口,这个长上下文预训练阶段使用了大约 800B 训练 token 数据。
最后用高质量的 4000 万个 token 数据学习,线性地将学习率衰减至 0,同时保持上下文长度为 128K 个 token。在这一退火阶段,调整了数据混合配比,以增加高质量数据比如数学、代码、逻辑内容的影响。

在 Post-Training 过程中,首先用人工标注数据训练 RM(Reward Model)模型,用来评价一个<Prompt, answer>数据的质量,然后用 RM 参与拒绝采样(Rejection Sampling)。
就是说对于一个人工 Prompt,用模型生成若干个回答,RM 给予质量打分,选择得分最高的保留作为 SFT(Supervised Fine-Tuning)数据,其它抛掉。这样得到的 SFT 数据再加上专门增强代码、数学、逻辑能力的 SFT 数据一起,用来调整模型得到 SFT 模型。
训练方法最终采用了 DPO(Direct Preference Optimization),并没有直接采用 PPO 的训练方式,官方的解释是 Managing complexity(管理复杂性)。
之后用人工标注数据来使用 DPO 模型调整 LLM 参数,DPO 本质上是个二分类,就是从人工标注的<Prompt,Good Answer,Bad Answer>三元数据里学习,调整模型参数鼓励模型输出 Good Answer,不输出 Bad Answer,这算完成了一个迭代轮次的 Post-Training。
上述过程会反复迭代几次,每次的流程相同,不同的地方在于拒绝采样阶段用来对给定 Prompt 产生回答的 LLM 模型,会从上一轮流程最后产生的若干不同 DPO 模型(不同超参等)里选择最好的那个在下一轮拒绝采样阶段给 Prompt 生成答案。很明显,随着迭代的增加 DPO 模型越来越好,所以拒绝采样里能选出的最佳答案质量越来越高,SFT 模型就越好,如此形成正反馈循环。
可以看出尽管 RLHF 和 DPO 两种模式都包含 RM,但是用的地方不一样:RLHF 是把 RM 打分用在 PPO 强化学习阶段,而 LLaMA 3 则用 RM 来筛选高质量 SFT 数据。
下图展示了开源和闭源模型随着时间能力差异曲线,可以看出两者差距随着时间是逐步减小的,而 LLaMA 3-405B 让两线出现了交点。

LLaMA 3-405B 的开源,对于其它无论闭源还是开源模型,都有重大影响:
我认为最后大模型的结果可能会趋向于头部集中,因为它最重要的能力就是知识的全面性与对话推理能力。而如果做某一领域的模型,只要有那方面的数据,用以前的技术手段也能达到相同的效果。以目前情况来看,大模型的应用以调用为主,根据这个'大脑'开发配套的 Agent 即可,那我肯定会选一个最强的大脑进行开发。
但是一家独大的发展可能并不利于以后这项技术以后的发展。开源模型的崛起意味着:
因此,LLaMA3 的出现不仅是技术的胜利,更是开源精神在 AI 时代的延续。它打破了巨头对先进 AI 能力的垄断,推动了整个行业的透明化和民主化进程。未来,我们可能会看到更多基于开源基座模型的定制化解决方案涌现,形成百花齐放的生态格局。
LLaMA3 在架构优化、训练策略以及对齐方法上的改进,使其性能达到了前所未有的高度。开源与闭源界限的模糊,标志着 AI 发展进入新阶段。对于开发者而言,掌握开源模型的能力将成为核心竞争力,同时也需关注模型安全与伦理问题,共同推动 AI 技术的健康发展。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online