LongCat-Flash-Thinking-2601 推理模型技术解析
LongCat-Flash-Thinking-2601 是一款基于 MoE 架构的 5600 亿参数大型推理模型。通过环境扩展、多环境强化学习及抗噪训练强化智能体思维,并引入深度思考模式提升复杂任务表现。在数学推理、工具使用及搜索基准测试中达到顶尖水平,展现出优秀的泛化与鲁棒性。支持 SGLang 和 vLLM 部署,采用 MIT 许可证开源。

LongCat-Flash-Thinking-2601 是一款基于 MoE 架构的 5600 亿参数大型推理模型。通过环境扩展、多环境强化学习及抗噪训练强化智能体思维,并引入深度思考模式提升复杂任务表现。在数学推理、工具使用及搜索基准测试中达到顶尖水平,展现出优秀的泛化与鲁棒性。支持 SGLang 和 vLLM 部署,采用 MIT 许可证开源。

我们推出全新升级的 LongCat-Flash-Thinking 模型——这是一个基于创新性混合专家架构(MoE)、总参数量达 5600 亿的高效大型推理模型(LRM)。本次升级不仅延续了前代版本中领域并行训练方案的优势,在传统推理基准测试中保持顶尖水平,更通过精心设计的训练流程系统性强化了智能体思维能力:首先进行环境规模扩展与任务合成,随后实施可靠高效的大规模多环境强化学习。为更好适应现实世界智能体任务固有的噪声与不确定性,我们针对多种类型和级别的环境噪声开展了系统性分析与课程训练,确保模型在不完美条件下仍能保持稳健表现。最终,LongCat-Flash-Thinking-2601 不仅在智能体工具使用、智能体搜索和工具集成推理等基准测试中达到顶尖水平,更在任意分布外现实场景中展现出显著提升的泛化能力。我们特别设计了专项评估方案来检验模型的鲁棒性与泛化能力。此外,新引入的深度思考模式通过强化并行思维,可显著提升模型应对极端复杂任务时的表现。
我们构建了多样化的高质量环境集合,作为强化学习的训练场,使模型能够习得高阶、可迁移的智能体技能。每个环境包含 60 余种工具,通过密集依赖图组织,为多样化任务构建和大规模探索提供充分复杂度。随着训练环境数量增加,我们在域外评估中观察到持续提升的泛化表现。
由于现实世界的智能体环境本质上是嘈杂且不完美的,仅在理想化环境中训练模型是不够的,往往会导致鲁棒性受限。为解决这一问题,我们明确将环境缺陷纳入模型训练过程以增强鲁棒性。具体而言,我们系统分析了智能体场景中现实噪声的主要来源,进而设计自动化流程将此类噪声注入训练环境。在强化学习过程中,我们采用课程学习策略,随着训练推进逐步增加噪声类型和强度。得益于鲁棒训练,LongCat-Flash-Thinking-2601 对环境不确定性展现出强大适应力,在不完美条件下持续获得性能提升。
为突破当前推理能力边界,我们建立了深度思考模式。具体实现上,我们将复杂问题求解分解为两个互补阶段:并行思考与汇总提炼,从而协同扩展推理深度与广度。在推理广度扩展方面,该模式下以并行方式独立生成多条推理轨迹,实现推理路径的广泛探索。此处采用适度提高的推理温度参数以确保多样性。对于推理深度扩展,汇总阶段精炼的轨迹可递归反馈至汇总模型,形成支持渐进深化推理的迭代循环。我们专门配置强化学习阶段来训练汇总能力,从而进一步释放该模式潜力。
| Benchmark | DeepSeek-V3.2-Thinking | Kimi-K2-Thinking | Qwen3-235B-A22B-Thinking-2507 | GLM-4.7-Thinking | Claude-Opus-4.5-Thinking | Gemini-3-Pro | GPT-5.2-Thinking-xhigh | LongCat-Flash-Thinking-2601 |
|---|---|---|---|---|---|---|---|---|
| Architecture | MoE | MoE | MoE | MoE | - | - | - | MoE |
| # Total Params | 671B | 1T | 235B | 355B | - | - | - | 560B |
| # Activated Params | 37B | 32B | 22B | 32B | - | - | - | 27B |
| Mathematical Reasoning w/ Tools | ||||||||
| AIME-25 (Avg@16) | 93.5* | 99.1† | 92.6* | 95.3* | 100.0 | 99.8 | 100.0 | 99.6 / 100.0‡ |
| HMMT-25 (Avg@16) | 93.5* | 95.1† | 83.9* | 98.1* | 98.6 | 99.8 | 99.6 | 93.4 / 97.5‡ |
| IMO-AnswerBench (Avg@4) | 77.7* | 78.7* | 73.0* | 84.0* | 82.8 | 86.7 | - | 78.6 / 86.8‡ |
| AMO-Bench EN (Avg@16) | 51.9* | 56.0* | 47.8* | 62.4* | 66.0 | 72.5 | - | 61.6 / 66.0‡ |
| AMO-Bench CH (Avg@16) | 52.0* | 51.8* | 28.8* | 35.1* | 67.7 | 74.9 | - | 56.8 / 67.5‡ |
| Agentic Search | ||||||||
| BrowseComp (Pass@1) | 51.4 / 67.6† | - / 60.2† | - | 52.0 / 67.5† | - | - | 65.8 / - | 56.6 / 73.1 |
| BrowseComp-zh (Pass@1) | 65.0 / - | - / 62.3† | - | 66.6 / - | - | - | - | 69.0 / 77.7 |
| RW Search (Pass@1) | 74.0 | 63.0 | 20.5 | 69.0 | 75.5 | 74.5 | 82.0 | 79.5 |
| Agentic Tool Using | ||||||||
| τ²-Retail (Avg@4) | 81.8† | - | 71.9† | - | 88.9† | - | 82.0† | 88.6 |
| τ²-Airline (Avg@4) | 63.8† | - | 58.6† | - | - | - | - | 76.5 |
| τ²-Telecom (Avg@4) | 96.2† | - | 47.3 | - | 98.2† | - | 98.7† | 99.3 |
| τ²-Avg (Avg@4) | 80.6 | 74.3† | 59.3 | 87.4† | 82.4 | 90.7† | 80.6 | 88.2 |
| τ²-Noise (Avg@4) | 64.1 | 63.1 | 44.3 | 66.0 | 59.4 | 57.3 | 65.0 | 67.1 |
| VitaBench (Avg@4) | 24.0 | 12.8 | 14.5 | 18.3 | 28.5 | 31.5 | 24.3 | 29.3 |
| VitaBench-Noise (Avg@4) | 14.0 | 9.2 | 6.5 | 10.8 | 20.3 | 20.8 | 19.0 | 20.5 |
| Random Complex Tasks (Avg@4) | 32.5 | 29.7 | 32.7 | 25.3 | 32.6 | 32.5 | 17.2 | 35.8 |
| General QA | ||||||||
| HLE text-only (w/o tools) | 24.1 | 24.4 | 17.8 | 26.9 | 32.0 | 40.3 | 34.5† | 25.2 |
| GPQA-Diamond (Avg@16) | 86.9 | 85.4 | 80.5 | 84.9 | 86.9 | 91.9 | 92.9 | 80.5 / 85.2‡ |
| Coding | ||||||||
| LCB (24.08–25.05) (Avg@4) | 82.4 | 75.1 | 76.2 | 84.8 | 82.8 | 88.1 | - | 82.8 |
| OJBench (Pass@1) | 41.8 | 42.3 | 35.6 | 44.6 | 46.7 | 61.2 | - | 42.2 |
| OIBench EN (Pass@1) | 43.3 | 39.0 | 36.8 | 30.8 | 50.0 | 58.2 | - | 47.7 |
| SWE-bench Verified (Avg@5) | 73.1 | 71.3 | - | 73.8 | 80.9 | 76.2 | 80.0 | 70.0 |
注:
我们提出了一种评估智能体模型泛化能力的新方法。具体而言,我们构建了一个自动化合成流程,允许用户根据给定关键词为任意场景随机生成复杂任务。每个生成的任务都配有相应工具集和可执行环境。由于这些环境中的工具具有高度随机性,我们通过评估模型在此类环境中的表现来衡量其泛化能力。LongCat 在这些设定下始终表现出卓越性能,展现出强大的智能体场景泛化能力。
此示例展示模板如何处理对话历史和思考内容。
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "meituan-longcat/LongCat-Flash-Thinking-2601"
# Load the tokenizer and the model
tokenizer = AutoTokenizer.from_pretrained(model_name)
messages = [{"role":"system","content":"You are a helpful assistant."},{"role":"user","content":"Please tell me what is $$1 + 1$$ and $$2 \times 2$$?"},{"role":"assistant","reasoning_content":"This question is straightforward: $$1 + 1 = 2$$ and $$2 \times 2 = 4"."},{"role":"user","content":"Check again?"}]
text = tokenizer.apply_chat_template(
messages, tokenize=False, enable_thinking=True, add_generation_prompt=True, save_history_reasoning_content=False# Discard reasoning history to save tokens
)
# Template Output Structure:
# <longcat_system>You are a helpful assistant.<longcat_user>Please tell me what is $$1 + 1$$ and $$2 \times 2$$?<longcat_assistant>The answers are 2 and 4</longcat_s><longcat_user>Check again? /think_on <longcat_assistant><longcat_think>
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
# Generate response
generated_ids = model.generate(**model_inputs, max_new_tokens=32768)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist()
print(tokenizer.decode(output_ids, skip_special_tokens=True).strip("\n"))
# Example Output:
# The user wants a double-check. Since $$1 + 1 = 2$$ and $$2 \times 2 = 4$$ are basic arithmetic truths, the previous answer is correct.
# </longcat_think>
# I have verified the calculations: $$1 + 1 = 2$$ and $$2 \times 2 = 4$$. The initial answer remains correct.</longcat_s>
这个例子展示了如何在推理框架中集成函数调用功能。
tools = [{"type":"function","function":{"name":"func_add","description":"Calculate the sum of two numbers","parameters":{"type":"object","properties":{"x1":{"type":"number","description":"The first addend"},"x2":{"type":"number","description":"The second addend"}},"required":["x1","x2"]}}}]
messages = [{"role":"system","content":"You are a helpful assistant."},{"role":"user","content":"Please tell me what is $$125679 + 234519$$?"},{"role":"assistant","reasoning_content":"This calculation requires precision; I will use the func_add tool.","tool_calls":[{"type":"function","function":{"name":"func_add","arguments":{"x1":125679,"x2":234519}}}]},{"role":"tool","name":"func_add","content":"{\"ans\": 360198}"}]
text = tokenizer.apply_chat_template(
messages, tools=tools, tokenize=, enable_thinking=, add_generation_prompt=, save_history_reasoning_content=
)
model_inputs = tokenizer([text], return_tensors=).to(model.device)
generated_ids = model.generate(**model_inputs, max_new_tokens=)
output_ids = generated_ids[][(model_inputs.input_ids[]):].tolist()
(tokenizer.decode(output_ids, skip_special_tokens=).strip())
我们已在 SGLang 和 vLLM 中实现了基础适配以支持 LongCat-Flash-Thinking-2601 的部署。具体部署说明请查阅相关文档。
模型权重采用 MIT 许可证发布。
除非另有说明,对本代码库的任何贡献均遵循 MIT 许可证。该许可不授予使用美团商标或专利的任何权利。
完整许可文本请参见 LICENSE 文件。
本模型并非针对所有潜在下游应用场景专门设计或进行全面评估。
开发者应充分考虑大语言模型的已知局限性(包括不同语言间的性能差异),在敏感或高风险场景部署前需审慎评估准确性、安全性与公平性。 开发者及下游用户有责任理解并遵守适用法律法规要求(包括但不限于数据保护、隐私及内容安全相关规定),确保使用合规。
本模型卡片内容不得解释为对模型所遵循的 MIT 开源许可条款的任何变更或限制。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online