跳到主要内容Snowflake Arctic 开源:4800 亿参数 MoE 模型性能解析 | 极客日志PythonAI算法
Snowflake Arctic 开源:4800 亿参数 MoE 模型性能解析
Snowflake 发布开源模型 Arctic,采用 4800 亿参数稀疏架构,训练期间仅激活 17B 参数。该模型在 Apache 2.0 许可下开放权重与代码,专注于企业级任务如代码生成、SQL 及指令遵循。评测显示,Arctic 以不到 Llama 3 70B 一半的训练成本,在企业智能指标上达到同等甚至更优性能。其核心创新包括 Dense-MoE 混合架构、三阶段课程学习及推理系统优化,支持 FP8 量化部署,为低成本构建高质量企业 AI 设定了新基准。
Snowflake Arctic 开源:4800 亿参数 MoE 模型性能解析
Arctic 是 Snowflake AI 团队推出的最新开源大语言模型,其核心特点在于规模巨大且架构高度稀疏。这种设计使得模型能够在显著降低训练开销的同时,保持与更大预算训练模型相当的性能。
核心规格与优势
与其他使用类似计算预算训练的开源模型相比,Arctic 的性能表现更为优异。具体而言,比起 Llama 3 8B 和 Llama 2 70B,Arctic 所用的训练计算资源不到它们的一半,但在评估指标上却取得了相当的分数。
关键参数
- 总参数量:480B(4800 亿)
- 活跃参数:生成期间仅 17B 处于活跃状态
- 专家结构:128 位专家,每次生成选择 2 位激活(Top-2 Gating)
- 版本发布:包含 Instruct 和 Base 两个版本
- 应用场景:专注于企业任务(代码、SQL、推理、跟踪)
- 授权协议:Apache 2.0,提供权重和代码的无限制访问
- 内存需求:FP16 精度下约 900GB,INT4 精度下约 240GB
- 训练框架:使用 DeepSpeed-MoE 进行训练
主打的核心价值在于极高的性价比。评测主要关注两项指标:企业智能指标和学术基准。
企业智能指标
- 编码能力:HumanEval+ 和 MBPP+
- SQL 生成:Spider
- 指令遵循:IFEval
在多项企业智能指标中,Arctic 超越了 Mixtral 8×7B 等开源对手。在计算类别中,它实现了顶级性能,甚至能与使用更高计算预算训练的模型相媲美。
学术基准表现
团队同时采用了业界常用的评估 LLM 的学术基准,包括世界知识、常识推理和数学能力。可以看到,Arctic 在学术基准上的表现也不差。
值得注意的是,MMLU 等世界知识指标通常随着高质量网络和 STEM 数据的增加以及训练 FLOPS 的提升而提高。由于 Arctic 的目标之一是在保持较小训练预算的同时优化训练效率,因此跟其他模型相比,Arctic 在 MMLU 上的得分相对较低也属情理之中。如果训练计算预算高于 Arctic,MMLU 性能理论上将超越 Arctic。当然,MMLU 世界知识的性能并不一定与企业智能直接相关。
训练效率分析
在以往,用 LLM 构建顶级企业 AI 的成本往往高得离谱,通常需要数千万甚至数亿美元的资源投入。Snowflake AI 团队的研究者致力于解决有效训练和推理的限制,团队成员过去曾开源了 ZeRO、DeepSpeed、PagedAttention/vLLM 和 LLM360 等系统,显著降低了 LLM 训练和推理的成本。
Arctic 为具有成本效益的训练设定了新基准,用户可以以极低的成本创建满足企业需求的高质量定制模型。
计算资源对比
团队发现,企业客户对 AI 有着一致的需求和使用场景——构建对话式 SQL 数据助手、代码助手和 RAG 聊天机器人。为了便于评估,团队将这些能力整合到「企业智能」这个单一指标中。
结果显示,Arctic 在企业级评估指标上的表现,与 Llama 3 8B 和 Llama 2 70B 相当,甚至更优,而它所使用的训练计算资源却不到后两者的一半。具体来说,Arctic 使用的计算预算只有 Llama3 70B 的 1/17,但在编程、SQL 和企业级任务上,都与其不相上下。
此外,Arctic 的高训练效率还意味着,Snowflake 客户和整个 AI 社区可以以更加经济实惠的方式训练定制模型。
架构创新
为了实现如此高的训练效率,Arctic 采用了独特的 Dense-MoE Hybrid transformer 架构。该架构将一个 10B 规模的稠密 Transformer 模型与一个 128×3.66B 规模的残差 MoE MLP 相结合,虽然总参数量达到 480B,但通过 top-2 gating 的方式只选择了其中 17B 个参数保持活跃。
1. 更多但精炼的专家
MoE(Mixture of Experts)可以在不增加计算成本的情况下,显著提高 LLM 模型的质量。模型质量的提升主要取决于 MoE 模型中专家的数量、总参数量以及这些专家可以组合在一起的方式和数量。Arctic 被设计为拥有 480B 个参数,分布在 128 个细粒度专家中,并使用 top-2 gating 选择 17B 个活跃参数。相比之下,最近的 MoE 模型使用的专家数量就要少得多了。
从直观上看,Arctic 利用更大的总参数量和众多专家来扩大模型容量,同时更明智地在众多精炼的专家中进行选择,并使用适度数量的活跃参数来实现资源高效的训练和推理。
2. 架构和系统协同设计
即便是用最强大的 AI 硬件,想要基于普通的 MoE 架构训练大量专家效率依然很低。其原因在于,专家之间存在的全通信开销非常高昂。不过,如果能将通信与计算重叠,那么就可以极大地降低这种开销。
因此,团队在 Arctic 架构中将一个密集的 Transformer 与一个残差 MoE 组件相结合,从而使系统能够通过通信计算重叠来消除大部分通信开销,最终实现了极佳的训练效率。
3. 面向企业的数据课程
要在代码生成和 SQL 等企业指标上表现出色,需要与训练通用指标的模型截然不同的数据课程。团队在进行了数百次小规模的对比实验后发现,常识推理等通用技能可以在开始时学习,而编码、数学和 SQL 等更复杂的指标可以在训练的后期有效学习。
因此,Arctic 采用了三阶段课程进行训练,每个阶段的数据组成不同:
- 第一阶段(1T Tokens):侧重于通用技能
- 第二阶段(1.5T Tokens):侧重于企业级技能
- 第三阶段(1T Tokens):侧重于企业级技能
推理效率优化
训练效率只是 Arctic 高效的其中一个方面。如果希望低成本部署模型,推理效率也同样至关重要。作为 MoE 模型规模的飞跃,Arctic 使用了比其他开源自回归模型更多的专家和参数。
为了有效地在 Arctic 上运行推理,团队做了一些系统性的创新:
交互式推理优化
在较小 batch 的交互式推理中(比如批大小为 1),MoE 模型的推理延迟受到了读取所有活跃参数所需时间的瓶颈,其中,推理是受内存带宽限制的。在这样的批大小下,Arctic(17B 活跃参数)的内存读取次数比 Code-Llama 70B 少 4 倍,比 Mixtral 8x22B(44B 活动参数)少 2.5 倍,从而实现更快的推理性能。
为此,团队跟英伟达的 TensorRT-LLM 和 vLLM 团队展开合作,为交互式推理提供了 Arctic 的初步实现。通过 FP8 量化,团队可以将 Arctic 放入单个 GPU 节点中。虽然仍远未完全优化,但在批大小为 1 时,Arctic 的吞吐量超过 70+token/秒,这样就实现了有效的交互式服务。
大规模批处理优化
当批大小的规模显著增加,例如每次前向传递要处理数千个 token 时,Arctic 就会从内存带宽受限转变为计算受限,此时推理的瓶颈就在于每个 token 的活跃参数。在这一点上,与 CodeLlama 70B 和 Llama 3 70B 相比,Arctic 的计算需求减少了 4 倍。
为了实现计算受限的推理和与 Arctic 中活跃参数数量较少相对应的高吞吐量,需要较大的 batch size。要实现这一点,需要有足够的 KV 缓存内存来支持较大的 batch size,同时也需要足够的内存来存储近 500B 的模型参数。面对这重重挑战,最终团队还是找到了办法。
通过使用 FP8 权重、分割融合和连续批处理、节点内的张量并行性以及节点间的管线并行性等系统优化组合,团队在双节点推理中,实现了这一目标。
开源与生态
新模型 Arctic 基础模型和指令微调模型代码全部开源,任何人可以将其用于研究、产品、原型当中。研究人员基于 LoRA 的微调的 pipeline 和配方,并允许在单个节点上进行高效的模型微调。
现在,Snowflake 正在与英伟达 TensorRT-LLM 和 vLLM 开展合作,为 Arctic 模型开发初始的推理实现,并且针对批大小为 1 的交互式使用进行了优化。未来,他们还将与社区合作,解决真正大型 MoE 更大的批大小的推理复杂性。
另外,Arctic 现使用的是 4k 上下文窗口进行训练,研究人员还将开发一种基于注意力下沉(attention-sinks)的滑动窗口的方法,以支持未来几周无限序列生成能力。下一步,将会扩展到 32K 上下文窗口。
团队背景
Snowflake 的 CEO Sridhar Ramaswamy 是前谷歌高级副总裁,AI 团队的一把手 Vivek Raghunathan 也是前谷歌副总裁。为了发展 AI,两人把 DeepSpeed 团队最顶尖的几个元老都挖了过来,包括 Zhewei Yao 和 Yuxiong He。Zhewei Yao 在 UC 伯克利获得博士学位,Yuxiong He 是 DeepSpeed 的创始人之一。团队的另一位华人大牛 Aurick Qiao 曾在微软、Dropbox 工作,Hao Zhang 则联合创立了 LMnet.ai 并参与了 LMSYS Org 的维护。这些资深专家的加入为 Arctic 的技术突破提供了坚实保障。
总结
Arctic 的推出标志着开源大模型在企业级应用方向上的重要进展。通过 4800 亿参数 MoE 架构与高效训练策略的结合,它在控制成本的同时实现了卓越的性能。对于希望构建低成本、高性能企业 AI 的团队来说,Arctic 提供了一个极具吸引力的开源选项。
相关免费在线工具
- 加密/解密文本
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
- RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
- Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
- curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
- Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
- Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online