【AIGC】美团龙猫大模型(LongCat-Flash-Chat)1. 快速入门

【AIGC】美团龙猫大模型(LongCat-Flash-Chat)1. 快速入门

美团龙猫大模型(LongCat-Flash-Chat)1. 快速入门

1. LongCat-Flash-Chat 大模型简介

1.1 开源模型

9月 1日,美团正式发布 LongCat-Flash-Chat(龙猫)大模型。

LongCat-Flash 大模型采用创新性混合专家模型(Mixture-of-Experts,MoE)架构,总参数 560B,激活参数 18.6B~31.3B(平均 27B),实现了计算效率与性能的双重优化。

LongCat-Flash 大模型目前在 Github、Hugging Face 平台同步开源,同时你也可以访问官网 https://longcat.ai/,与 LongCat-Flash-Chat 开启对话。

在这里插入图片描述

开源地址:

【Github-LongCat】https://github.com/meituan-longcat/LongCat-Flash-Chat

在这里插入图片描述

【Hugging Face-LongCat】https://huggingface.co/meituan-longcat/LongCat-Flash-Chat

在这里插入图片描述

1.2 技术亮点

LongCat-Flash 模型在架构层面引入 “零计算专家(Zero-Computation Experts)” 机制,总参数量 560B,每个 Token 依据上下文需求仅激活 18.6B~31.3B 参数,实现算力按需分配和高效利用。为控制总算力消耗,训练过程采用 PID 控制器实时微调专家偏置,将单 Token 平均激活量稳定在约 27B。

🌟 可扩展的架构设计以提高计算效率
LongCat-Flash 的设计和优化遵循两个关键原则:高效的计算利用率,以及高效的训练和推理。
(1)我们在 MoE 区块中引入了零计算专家机制,根据 tokens 的重要性为其分配动态计算预算,即根据上下文需求激活 18.6 至 313 亿个参数(总共 5600 亿个)。为了确保一致的计算负载,我们采用了由 PID 控制器调整的专家偏差,每个标记平均保持约 270 亿个激活参数。
(2)由于通信开销成为 MoE 模型扩展过程中的瓶颈,我们采用了快捷连接的 MoE(ScMoE)设计来扩展计算-通信重叠窗口。结合定制的基础设施优化,该设计支持超过数万个加速器的大规模训练,并以高吞吐量和低延迟进行推理。

🌟 有效的模型扩展策略
开发了一个全面的稳定性和扩展框架,用于鲁棒地训练大规模模型:
(1)我们成功地将超参数传输策略应用于如此大的模型,通过利用具有理论保证的较小代理模型的结果来预测最佳超参数配置。
(2)我们使用基于精细半尺度检查点的模型增长机制初始化模型,与传统的初始化方法相比,实现了更高的性能。
(3) 多管齐下的稳定性套件结合了原则性的路由器梯度平衡、用于抑制大规模激活的隐藏 z 损耗以及微调的优化器配置。
(4)为了增强大规模聚类训练的可靠性,我们引入了确定性计算。这保证了实验的精确可重复性,并能够在训练过程中检测 SDC(静默数据损坏)。

🌟 代理能力的多阶段训练管道
通过精心设计的管道,LongCat-Flash 被赋予了先进的代理行为。最初的工作重点是构建一个更适合代理后训练的基础模型,其中我们设计了一个两阶段的预训练数据融合策略来集中推理密集型领域数据。在训练中期,我们增强了推理和编码能力,同时将上下文长度扩展到 128k,以满足代理训练后的需求。在此高级基础模型的基础上,我们继续进行多阶段后期训练。认识到智能体任务的高质量、高难度训练问题的稀缺性,我们设计了一个多智能体综合框架,该框架跨三个轴定义任务难度,即信息处理、工具集复杂性和用户交互——使用专门的控制器生成需要迭代推理和环境交互的复杂任务。

通过算法和工程层面的联合设计,LongCat-Flash 在理论上的成本和速度都大幅领先行业同等规模、甚至规模更小的模型;通过系统优化,LongCat-Flash 在 H800 上达成了 100 tokens/s 的生成速度,在保持极致生成速度的同时,输出成本低至 5 元/百万 Token。

在这里插入图片描述

1.3 性能评估

LongCat-Flash 是一款强大且全能的模型,它在多个领域表现出卓越的性能优势。以下将从不同维度详细解读:

  • 通用领域知识 方面,LongCat-Flash 表现出强劲且全面的性能:在 ArenaHard-V2 基准测试中取得 86.50 的优异成绩,位列所有评估模型中的第二名,充分体现了其在高难度“一对一”对比中的稳健实力。在基础基准测试中仍保持高竞争力,MMLU(多任务语言理解基准)得分为 89.71,CEval(中文通用能力评估基准)得分为 90.44。这些成绩可与目前国内领先的模型比肩,且其参数规模少于 DeepSeek-V3.1、Kimi-K2 等产品,体现出较高的效率。
  • 智能体(Agentic)工具使用 方面,LongCat-Flash 展现出明显优势:即便与参数规模更大的模型相比,其在 τ2-Bench(智能体工具使用基准)中的表现仍超越其他模型;在高复杂度场景下,该模型在 VitaBench(复杂场景智能体基准)中以 24.30 的得分位列第一,彰显出在复杂场景中的强大处理能力。
  • 编程 方面,LongCat-Flash 展现出扎实的实力:其在 TerminalBench(终端命令行任务基准)中,以 39.51 的得分位列第二,体现出在实际智能体命令行任务中的出色熟练度;在 SWE-Bench-Verified(软件工程师能力验证基准)中得分为 60.4,具备较强竞争力。
  • 指令遵循 方面,LongCat-Flash 优势显著:在 IFEval(指令遵循评估基准)中以 89.65 的得分位列第一,展现出在遵循复杂且细致指令时的卓越可靠性;此外,在 COLLIE(中文指令遵循基准)和 Meeseeks-zh(中文多场景指令基准)中也斩获最佳成绩,分别为 57.10 和 43.03,凸显其在中英文两类不同语言、不同高难度指令集上的出色驾驭能力。

在这里插入图片描述

2. 快速入门

2.1 聊天模板

聊天模板的详细信息在 tokenizer_config.json 文件中提供。下面是一些例子。

第一轮:

使用以下前缀,LongCat-Flash 可以生成与用户查询相对应的响应:

[Round 0]USER:{query} ASSISTANT: 

指定系统提示符时,前缀将采用以下格式:

SYSTEM:{system_prompt}[Round 0]USER:{query} ASSISTANT: 

多轮:

在多轮次方案中,前缀是通过将上下文与最新的用户查询连接来构造的:

SYSTEM:{system_prompt}[Round 0]USER:{query} ASSISTANT:{response}</longcat_s>... [Round N-1]USER:{query} ASSISTANT:{response}</longcat_s>[Round N]USER:{query} ASSISTANT: 

这里,N 表示第 N 轮用户查询,索引从零开始。

工具调用

LongCat-Flash 支持以下格式的工具调用:

{tool_description}## Messages SYSTEM:{system_prompt}[Round 0]USER:{query} ASSISTANT: 

tool_description 如下:

## Tools You have access to the following tools: ### Tool namespace: function#### Tool name: {func.name} Description: {func.description} InputSchema: {json.dumps(func.parameters, indent=2)} **Note**: For each function call, return a json object with function name and arguments within <longcat_tool_call></longcat_tool_call> XML tags as follows: <longcat_tool_call>{"name":<function-name>, "arguments":<args-dict>}</longcat_tool_call> When multiple functions need to be called simultaneously, each function call should be wrapped in its own <longcat_tool_call> tag and placed consecutively. For example: <longcat_tool_call>{"name":<function-name>, "arguments":<args-dict>}</longcat_tool_call><longcat_tool_call>{"name":<function-name>, "arguments":<args-dict>}</longcat_tool_call>

部署

我们在 SGLang 和 vLLM 中都实现了基本适配,以支持 LongCat-Flash 的部署。

由于其 5600 亿个参数 (560B) 的大小,LongCat-Flash 需要至少一个节点(例如 8xH20-141G)来托管 FP8 格式的模型权重,并且至少需要两个节点(例如 16xH800-80G)来托管 BF16 权重。下面提供了详细的启动配置。

2.2 SGLang 部署指南

单节点部署(Single-Node Deployment )

该模型可以使用张量并行性和专家并行性的组合在单个节点上提供服务。

python3 -m sglang.launch_server \ --model meituan-longcat/LongCat-Flash-Chat-FP8 \ --trust-remote-code \ --attention-backend flashinfer \ --enable-ep-moe \ --tp 8

多节点部署(Multi-Node Deployment )

在多节点设置中,采用张量并行性和专家并行性,并计划在未来实施其他并行策略。

python3 -m sglang.launch_server \ --model meituan-longcat/LongCat-Flash-Chat \ --trust-remote-code \ --attention-backend flashinfer \ --enable-ep-moe \ --tp 16 \ --nnodes 2 \ --node-rank $NODE_RANK \ --dist-init-addr $MASTER_IP:5000

启用多Token预测 (MTP)

要使用 SGLang 启用 MTP,请将以下参数添加到启动命令中:

--speculative-draft-model-path meituan-longcat/LongCat-Flash-Chat \ --speculative-algorithm NEXTN \ --speculative-num-draft-tokens 2 \ --speculative-num-steps 1 \ --speculative-eagle-topk 1

2.3 vLLM 部署指南

虽然 vLLM 支持类似于 SGLang 的并行策略,但它们的启动命令使用不同的语法和参数名称。

单节点部署(Single-Node Deployment )

该模型可以使用张量并行性和专家并行性的组合在单个节点上提供服务。

vllm serve meituan-longcat/LongCat-Flash-Chat-FP8 \ --trust-remote-code \ --enable-expert-parallel \ --tensor-parallel-size 8

多节点部署(Multi-Node Deployment )

在多节点设置中,采用张量并行性和专家并行性,并计划在未来实施其他并行策略。

# Node 0 vllm serve meituan-longcat/LongCat-Flash-Chat \ --trust-remote-code \ --tensor-parallel-size 8 \ --data-parallel-size 2 \ --data-parallel-size-local 1 \ --data-parallel-address $MASTER_IP \ --data-parallel-rpc-port 13345# Node 1 vllm serve meituan-longcat/LongCat-Flash-Chat \ --trust-remote-code \ --tensor-parallel-size 8 \ --data-parallel-size 2 \ --data-parallel-size-local 1 \ --data-parallel-start-rank 1 \ --data-parallel-address $MASTER_IP \ --data-parallel-rpc-port 13345

启用多Token预测 (MTP)

要使用 vLLM 启用 MTP,请将以下参数添加到启动命令中:

--speculative_config '{"model": "meituan-longcat/LongCat-Flash-Chat", "num_speculative_tokens": 1, "method":"longcat_flash_mtp"}'

3. 使用示例

在这里插入图片描述

下节介绍:美团龙猫大模型(LongCat-Flash-Chat)技术报告。

版权声明:

youcans@xidian 作品,转载必须标注原文链接:
美团龙猫大模型(LongCat-Flash-Chat)1. 快速入门
Copyright 2025 youcans, XIDIAN
Crated:2025-09

Read more

【 Intel/Altera FPGA技术实战 】Stratix 10 SOC U-Boot & ATF (Arm Trusted Firmware) Build(六)

一、前言 上节我们已经大致介绍了Stratix 10 SOC的Boot机制,在此基础上提出了Boot方式的选择方法,Boot系统架构的设计建议,软件开发、调试的所需文件/依赖等。 而我们GHRD(Golden Hardware Reference Design)工程自定义设计的开发调试是通过JTAG加载实现的,就需要软件生成JTAG加载所需的文件/依赖,那么我们就先来准备软件开发、调试的所需文件/依赖。 我们之前通过Quartus工具综合 + 实现已生成sof(1)文件,这里还需要HPS FSBL(2)文件,然后再把sof(1)文件和HPS FSBL(2)文件打包成HPS SOF(3)文件,HPS SOF(3)文件才能用于JTAG加载启动。 由上图可知,需要通过HPS Bootloader源码编译生成HPS FSBL(2)文件,这里与之前的FPGA器件通过Quartus工具的BSP Generator生成FSBL的方式不同,

AutoGen Studio虚拟现实:AI生成3D场景作品集

AutoGen Studio虚拟现实:AI生成3D场景作品集 1. 引言 想象一下,你只需要用简单的文字描述,就能在几分钟内生成一个完整的虚拟现实场景。不需要学习复杂的3D建模软件,不需要掌握专业的光照设置技巧,甚至不需要了解材质贴图的技术细节。这就是AutoGen Studio在虚拟现实领域带来的革命性体验。 今天我们将深入探索这个令人惊叹的技术成果,看看AI如何将文字描述转化为沉浸式的3D虚拟场景。从梦幻的森林秘境到未来的科幻都市,从温馨的家庭场景到宏大的历史遗迹,我们将展示一系列由AI生成的3D场景作品,让你亲眼见证这项技术的强大能力。 2. 技术核心:智能场景生成的三大支柱 2.1 自然语言理解与场景解析 AutoGen Studio的核心能力在于其强大的自然语言处理技术。当你输入"一个阳光明媚的海滩,有棕榈树和蓝色海浪"时,系统能够准确理解每个元素的空间关系、材质属性和环境氛围。 系统会分析文本中的关键词,识别出主要物体(棕榈树、海浪)、环境条件(阳光明媚)和视觉特征(蓝色)。这种深度理解确保了生成的场景不仅包含正确的元素,还能准确传达描述中的情感和氛围。

【无人机避障算法核心技术】:揭秘五种主流算法原理与实战应用场景

第一章:无人机避障算法概述 无人机避障算法是实现自主飞行的核心技术之一,其目标是在复杂环境中实时感知障碍物,并规划安全路径以避免碰撞。随着传感器技术和计算能力的提升,避障系统已从简单的距离检测发展为融合多源信息的智能决策体系。 避障系统的基本组成 典型的无人机避障系统包含以下关键模块: * 感知模块:利用激光雷达、超声波、立体视觉或RGB-D相机获取环境数据 * 数据处理模块:对原始传感器数据进行滤波、特征提取和障碍物识别 * 决策与规划模块:基于环境模型生成避障轨迹,常用算法包括A*、Dijkstra、RRT和动态窗口法(DWA) 常见避障算法对比 算法优点缺点适用场景A*路径最优,搜索效率高高维空间计算开销大静态环境全局规划DWA实时性强,适合动态避障局部最优风险室内低速飞行RRT*渐进最优,适应复杂空间收敛速度慢三维未知环境 基于深度学习的避障方法示例 近年来,端到端神经网络被用于直接从图像生成控制指令。以下是一个简化的行为克隆模型推理代码片段: import torch import torchvision.transforms as tran

一文讲清楚RAG 四大模式:Naive RAG、Advanced RAG、Modular RAG 与 Agentic RAG

一文讲清楚RAG 四大模式:Naive RAG、Advanced RAG、Modular RAG 与 Agentic RAG

随着技术迭代,RAG 已从最初的简单架构发展出多种进阶形态。本文将系统解析 RAG 的四大主流模式 ——Naive RAG、Advanced RAG、Modular RAG 与 Agentic RAG,从工作原理、技术特点到适用场景进行全方位对比,为技术选型提供参考。 一、RAG 基础:检索增强生成的核心逻辑 在深入模式解析前,需先明确 RAG 的核心逻辑。简单来说,RAG 由检索(Retrieval) 与生成(Generation) 两大模块构成: 检索模块:从预设知识库中精准定位与用户问题相关的信息片段(如文档、段落、句子); 生成模块:基于检索到的信息,结合大语言模型生成符合上下文、逻辑连贯的答案。 这种 “先检索再生成” 的模式,既保留了 LLM 的语言理解与生成能力,又通过外部知识的引入弥补了模型训练数据过时、事实准确性不足的缺陷。