Snowflake Arctic 开源：4800 亿参数 MoE 模型性能解析

Arctic 是 Snowflake AI 团队推出的最新开源大语言模型，其核心特点在于规模巨大且架构高度稀疏。这种设计使得模型能够在显著降低训练开销的同时，保持与更大预算训练模型相当的性能。

核心规格与优势

与其他使用类似计算预算训练的开源模型相比，Arctic 的性能表现更为优异。具体而言，比起 Llama 3 8B 和 Llama 2 70B，Arctic 所用的训练计算资源不到它们的一半，但在评估指标上却取得了相当的分数。

关键参数

总参数量：480B（4800 亿）
活跃参数：生成期间仅 17B 处于活跃状态
专家结构：128 位专家，每次生成选择 2 位激活（Top-2 Gating）
版本发布：包含 Instruct 和 Base 两个版本
应用场景：专注于企业任务（代码、SQL、推理、跟踪）
授权协议：Apache 2.0，提供权重和代码的无限制访问
内存需求：FP16 精度下约 900GB，INT4 精度下约 240GB
训练框架：使用 DeepSpeed-MoE 进行训练

图 1 编码、SQL 生成和指令遵循的企业智能平均值与训练成本的比较

主打的核心价值在于极高的性价比。评测主要关注两项指标：企业智能指标和学术基准。

企业智能指标

这是对企业客户至关重要的技能集合，包括：

编码能力：HumanEval+ 和 MBPP+
SQL 生成：Spider
指令遵循：IFEval

在多项企业智能指标中，Arctic 超越了 Mixtral 8×7B 等开源对手。在计算类别中，它实现了顶级性能，甚至能与使用更高计算预算训练的模型相媲美。

图 2 企业智能与训练成本对比

学术基准表现

团队同时采用了业界常用的评估 LLM 的学术基准，包括世界知识、常识推理和数学能力。可以看到，Arctic 在学术基准上的表现也不差。

值得注意的是，MMLU 等世界知识指标通常随着高质量网络和 STEM 数据的增加以及训练 FLOPS 的提升而提高。由于 Arctic 的目标之一是在保持较小训练预算的同时优化训练效率，因此跟其他模型相比，Arctic 在 MMLU 上的得分相对较低也属情理之中。如果训练计算预算高于 Arctic，MMLU 性能理论上将超越 Arctic。当然，MMLU 世界知识的性能并不一定与企业智能直接相关。

表 3 Arctic 与 DBRX、Llama 3 系列及 Mixtral 的对比

Snowflake Arctic 开源：4800 亿参数 MoE 模型性能解析