Snowflake Arctic 开源:4800 亿参数 MoE 模型性能解析
Arctic 是 Snowflake AI 团队推出的最新开源大语言模型,其核心特点在于规模巨大且架构高度稀疏。这种设计使得模型能够在显著降低训练开销的同时,保持与更大预算训练模型相当的性能。
核心规格与优势
与其他使用类似计算预算训练的开源模型相比,Arctic 的性能表现更为优异。具体而言,比起 Llama 3 8B 和 Llama 2 70B,Arctic 所用的训练计算资源不到它们的一半,但在评估指标上却取得了相当的分数。
关键参数
- 总参数量:480B(4800 亿)
- 活跃参数:生成期间仅 17B 处于活跃状态
- 专家结构:128 位专家,每次生成选择 2 位激活(Top-2 Gating)
- 版本发布:包含 Instruct 和 Base 两个版本
- 应用场景:专注于企业任务(代码、SQL、推理、跟踪)
- 授权协议:Apache 2.0,提供权重和代码的无限制访问
- 内存需求:FP16 精度下约 900GB,INT4 精度下约 240GB
- 训练框架:使用 DeepSpeed-MoE 进行训练

主打的核心价值在于极高的性价比。评测主要关注两项指标:企业智能指标和学术基准。
企业智能指标
这是对企业客户至关重要的技能集合,包括:
- 编码能力:HumanEval+ 和 MBPP+
- SQL 生成:Spider
- 指令遵循:IFEval
在多项企业智能指标中,Arctic 超越了 Mixtral 8×7B 等开源对手。在计算类别中,它实现了顶级性能,甚至能与使用更高计算预算训练的模型相媲美。

学术基准表现
团队同时采用了业界常用的评估 LLM 的学术基准,包括世界知识、常识推理和数学能力。可以看到,Arctic 在学术基准上的表现也不差。
值得注意的是,MMLU 等世界知识指标通常随着高质量网络和 STEM 数据的增加以及训练 FLOPS 的提升而提高。由于 Arctic 的目标之一是在保持较小训练预算的同时优化训练效率,因此跟其他模型相比,Arctic 在 MMLU 上的得分相对较低也属情理之中。如果训练计算预算高于 Arctic,MMLU 性能理论上将超越 Arctic。当然,MMLU 世界知识的性能并不一定与企业智能直接相关。






