美团龙猫大模型 LongCat-Flash-Chat 快速入门指南

美团龙猫大模型 LongCat-Flash-Chat 快速入门

1. 模型简介

1.1 开源信息

9 月 1 日，美团正式发布 LongCat-Flash-Chat（龙猫）大模型。

LongCat-Flash 大模型采用创新性混合专家模型（Mixture-of-Experts，MoE）架构，总参数 560B，激活参数 18.6B~31.3B（平均 27B），实现了计算效率与性能的双重优化。

目前该模型已在 GitHub、Hugging Face 平台同步开源，同时支持访问官网 https://longcat.ai/ 进行对话体验。

模型架构图

开源地址：

代码仓库界面

Hugging Face 页面

1.2 技术亮点

LongCat-Flash 模型在架构层面引入了'零计算专家（Zero-Computation Experts）'机制。总参数量 560B，每个 Token 依据上下文需求仅激活 18.6B~31.3B 参数，实现算力按需分配和高效利用。为控制总算力消耗，训练过程采用 PID 控制器实时微调专家偏置，将单 Token 平均激活量稳定在约 27B。

可扩展的架构设计以提高计算效率 LongCat-Flash 的设计和优化遵循两个关键原则：高效的计算利用率，以及高效的训练和推理。

动态计算预算分配：在 MoE 区块中引入零计算专家机制，根据 tokens 的重要性为其分配动态计算预算。为了确保一致的计算负载，采用了由 PID 控制器调整的专家偏差，每个标记平均保持约 270 亿个激活参数。
通信开销优化：由于通信开销成为 MoE 模型扩展过程中的瓶颈，采用了快捷连接的 MoE（ScMoE）设计来扩展计算 - 通信重叠窗口。结合定制的基础设施优化，该设计支持超过数万个加速器的大规模训练，并以高吞吐量和低延迟进行推理。

有效的模型扩展策略 开发了一个全面的稳定性和扩展框架，用于鲁棒地训练大规模模型：

超参数传输策略：成功地将超参数传输策略应用于如此大的模型，通过利用具有理论保证的较小代理模型的结果来预测最佳超参数配置。
模型增长机制：使用基于精细半尺度检查点的模型增长机制初始化模型，与传统的初始化方法相比，实现了更高的性能。
稳定性套件：多管齐下的稳定性套件结合了原则性的路由器梯度平衡、用于抑制大规模激活的隐藏 z 损耗以及微调的优化器配置。

美团龙猫大模型 LongCat-Flash-Chat 快速入门指南