模型介绍
我们推出全新升级的 LongCat-Flash-Thinking 模型——这是一个基于创新性混合专家架构(MoE)、总参数量达 5600 亿的高效大型推理模型(LRM)。本次升级不仅延续了前代版本中领域并行训练方案的优势,在传统推理基准测试中保持顶尖水平,更通过精心设计的训练流程系统性强化了智能体思维能力:首先进行环境规模扩展与任务合成,随后实施可靠高效的大规模多环境强化学习。为更好适应现实世界智能体任务固有的噪声与不确定性,我们针对多种类型和级别的环境噪声开展了系统性分析与课程训练,确保模型在不完美条件下仍能保持稳健表现。最终,LongCat-Flash-Thinking-2601 不仅在智能体工具使用、智能体搜索和工具集成推理等基准测试中达到顶尖水平,更在任意分布外现实场景中展现出显著提升的泛化能力。我们特别设计了专项评估方案来检验模型的鲁棒性与泛化能力。此外,新引入的深度思考模式通过强化并行思维,可显著提升模型应对极端复杂任务时的表现。
核心特性
🌟 环境扩展与多环境强化学习
我们构建了多样化的高质量环境集合,作为强化学习的训练场,使模型能够习得高阶、可迁移的智能体技能。每个环境包含 60 余种工具,通过密集依赖图组织,为多样化任务构建和大规模探索提供充分复杂度。随着训练环境数量增加,我们在域外评估中观察到持续提升的泛化表现。
- 高质量任务构建 为保障训练任务集质量,我们显式控制任务复杂度与多样性。每个任务基于从高质量环境中采样的连通子图构建,通过要求尽可能协调使用子图内工具来控制复杂度。逐步降低已选工具的采样概率以提升任务多样性。我们构建对应数据库确保任务可执行性,每个任务均验证至少存在一种可行解。但当环境包含大量工具时,跨数据库一致性维护面临挑战,可能导致任务无法验证。我们设计了专项策略应对该问题。
- 多环境强化学习 在保持高效异步训练与流式推演特性的同时,我们进一步扩展强化学习基础设施(DORA),以支持环境扩展协议要求的大规模多环境智能体训练。多环境任务以均衡方式组织在训练批次中,并根据任务复杂度及当前训练状态动态分配不同的推演预算。
🌟 抗噪环境下的鲁棒训练
由于现实世界的智能体环境本质上是嘈杂且不完美的,仅在理想化环境中训练模型是不够的,往往会导致鲁棒性受限。为解决这一问题,我们明确将环境缺陷纳入模型训练过程以增强鲁棒性。具体而言,我们系统分析了智能体场景中现实噪声的主要来源,进而设计自动化流程将此类噪声注入训练环境。在强化学习过程中,我们采用课程学习策略,随着训练推进逐步增加噪声类型和强度。得益于鲁棒训练,LongCat-Flash-Thinking-2601 对环境不确定性展现出强大适应力,在不完美条件下持续获得性能提升。
🌟 深度思考模式
为突破当前推理能力边界,我们建立了深度思考模式。具体实现上,我们将复杂问题求解分解为两个互补阶段:并行思考与汇总提炼,从而协同扩展推理深度与广度。在推理广度扩展方面,该模式下以并行方式独立生成多条推理轨迹,实现推理路径的广泛探索。此处采用适度提高的推理温度参数以确保多样性。对于推理深度扩展,汇总阶段精炼的轨迹可递归反馈至汇总模型,形成支持渐进深化推理的迭代循环。我们专门配置强化学习阶段来训练汇总能力,从而进一步释放该模式潜力。
评估结果
| Benchmark | DeepSeek-V3.2-Thinking | Kimi-K2-Thinking | Qwen3-235B-A22B-Thinking-2507 | GLM-4.7-Thinking | Claude-Opus-4.5-Thinking | Gemini-3-Pro | GPT-5.2-Thinking-xhigh | LongCat-Flash-Thinking-2601 |
|---|---|---|---|---|---|---|---|---|
| Architecture | MoE | MoE | MoE | MoE | - | - | - | MoE |
| # Total Params | 671B | 1T | 235B | 355B | - |


