1. LongCat-Flash-Chat 大模型简介
1.1 开源模型
9 月 1 日,美团正式发布 LongCat-Flash-Chat(龙猫)大模型。
LongCat-Flash 大模型采用创新性混合专家模型(Mixture-of-Experts,MoE)架构,总参数 560B,激活参数 18.6B~31.3B(平均 27B),实现了计算效率与性能的双重优化。
LongCat-Flash 大模型目前在 Github、Hugging Face 平台同步开源,同时你也可以访问官网 https://longcat.ai/,与 LongCat-Flash-Chat 开启对话。

开源地址:


1.2 技术亮点
LongCat-Flash 模型在架构层面引入'零计算专家(Zero-Computation Experts)'机制,总参数量 560B,每个 Token 依据上下文需求仅激活 18.6B~31.3B 参数,实现算力按需分配和高效利用。为控制总算力消耗,训练过程采用 PID 控制器实时微调专家偏置,将单 Token 平均激活量稳定在约 27B。
🌟 可扩展的架构设计以提高计算效率 LongCat-Flash 的设计和优化遵循两个关键原则:高效的计算利用率,以及高效的训练和推理。 (1)我们在 MoE 区块中引入了零计算专家机制,根据 tokens 的重要性为其分配动态计算预算,即根据上下文需求激活 18.6 至 313 亿个参数(总共 5600 亿个)。为了确保一致的计算负载,我们采用了由 PID 控制器调整的专家偏差,每个标记平均保持约 270 亿个激活参数。 (2)由于通信开销成为 MoE 模型扩展过程中的瓶颈,我们采用了快捷连接的 MoE(ScMoE)设计来扩展计算 - 通信重叠窗口。结合定制的基础设施优化,该设计支持超过数万个加速器的大规模训练,并以高吞吐量和低延迟进行推理。
🌟 有效的模型扩展策略 开发了一个全面的稳定性和扩展框架,用于鲁棒地训练大规模模型: (1)我们成功地将超参数传输策略应用于如此大的模型,通过利用具有理论保证的较小代理模型的结果来预测最佳超参数配置。 (2)我们使用基于精细半尺度检查点的模型增长机制初始化模型,与传统的初始化方法相比,实现了更高的性能。 (3)多管齐下的稳定性套件结合了原则性的路由器梯度平衡、用于抑制大规模激活的隐藏 z 损耗以及微调的优化器配置。 (4)为了增强大规模聚类训练的可靠性,我们引入了确定性计算。这保证了实验的精确可重复性,并能够在训练过程中检测 SDC(静默数据损坏)。
🌟 代理能力的多阶段训练管道 通过精心设计的管道,LongCat-Flash 被赋予了先进的代理行为。最初的工作重点是构建一个更适合代理后训练的基础模型,其中我们设计了一个两阶段的预训练数据融合策略来集中推理密集型领域数据。在训练中期,我们增强了推理和编码能力,同时将上下文长度扩展到 128k,以满足代理训练后的需求。在此高级基础模型的基础上,我们继续进行多阶段后期训练。认识到智能体任务的高质量、高难度训练问题的稀缺性,我们设计了一个多智能体综合框架,该框架跨三个轴定义任务难度,即信息处理、工具集复杂性和用户交互——使用专门的控制器生成需要迭代推理和环境交互的复杂任务。





