最新 AI 论文盘点：6 篇新作看记忆、长上下文、医疗评测、机器人策略与世界模型

2026 年 3 月 AI 领域发布 6 篇重要论文，涉及 LLM Agent 记忆机制、长上下文搜索策略、医疗真实场景评测、研究型 Agent 验证流程、机器人生成式策略优化及世界模型 sim-to-real 迁移。分析指出 AI 系统发展趋势正从单纯堆叠模型规模转向提升系统稳定性、管理记忆与控制过程，强调真实工作流偏好评估及推理链的可验证性，为具身智能与 Agent 设计提供新思路。

猫巷少女发布于 2026/4/8更新于 2026/5/2216 浏览

今天这批新论文里，我觉得有几条线特别值得看。

一条是 LLM / Agent 的记忆与长上下文，讨论怎么把'记住信息'和'真正用好上下文'这两件事拆开来做。

一条是医疗与真实场景评测，重点不再是静态 benchmark，而是更贴近临床和工作流的真实使用偏好。

还有一条是机器人与具身智能，不少工作开始把重点放在'少改模型、更多利用结构和搜索'上，而不是一味增大训练规模。

这篇挑 6 篇我认为更值得盘的论文，尽量少复述摘要，多讲它到底在解决什么问题、方法核心新在哪里、为什么值得关注、局限和边界是什么。

1. NextMem：给 LLM Agent 做'潜在事实记忆'

论文： NextMem: Towards Latent Factual Memory for LLM-based Agents
链接： https://arxiv.org/abs/2603.15634

这篇论文关注的是一个很实际的问题：Agent 的事实记忆到底该怎么存？

现在主流做法，一类是文本记忆，简单但上下文越来越长、检索开销越来越高；另一类是参数化记忆，更'内生'，但容易灾难性遗忘，更新和维护也贵。

NextMem 的思路，是往中间走一步：做 latent factual memory，也就是潜在空间里的事实记忆。作者用自回归自编码器把事实压缩进 latent memory，再保证还能准确重建；训练上用了两阶段策略，并加入量化来降低存储开销。

我觉得它最值得注意的地方，不是又做了一个 memory module，而是在回答一个越来越重要的问题：Agent 的长期记忆，不一定非得是可读文本，也不一定非得是参数更新，它可以是介于两者之间的可操作压缩表示。

如果这个方向继续成熟，后面很可能影响个人助理型 agent、长期研究 agent、复杂任务 agent 的记忆设计。不过 latent memory 的代价也很明显：更难解释，更难排错。

2. SRLM：长上下文不只是扩窗口，关键是怎么搜索'读法'

论文： Recursive Language Models Meet Uncertainty: The Surprising Effectiveness of Self-Reflective Program Search for Long Context
链接： https://arxiv.org/abs/2603.15653

长上下文这两年有个很典型的问题：模型窗口变长了，不代表它真的更会用长上下文。

这篇论文沿着 Recursive Language Models 那条线往前推，但一个很有意思的结论是：真正有效的，未必是 recursion 本身，而可能是更好的 program search。

他们提出的 SRLM，在程序化上下文交互里加入 uncertainty-aware self-reflection，用 self-consistency、reasoning length、verbalized confidence 这些内部信号去比较不同上下文交互程序。

这篇有两个启发：第一，长上下文问题很可能不是纯架构问题，而是搜索与控制问题；第二，递归策略如果选不好，不但不会更强，反而可能拖后腿。对 Agent 系统来说，这个提醒很重要。

3. MedArena：医疗 LLM 评测开始从静态题库转向真实临床偏好

论文： MedArena: Comparing LLMs for Medicine-in-the-Wild Clinician Preferences
链接： https://arxiv.org/abs/2603.15677

这篇我觉得非常值得看，尤其如果你关心医疗 AI。

它在做一件很对的事：别再只拿静态医疗 benchmark 当全部答案了。作者提出 MedArena，一个让临床医生直接拿自己的真实医疗问题去比较模型的平台。

结果里最有意思的，不只是模型排名，而是作者发现：只有大约三分之一的问题像传统 MedQA 那样偏事实回忆；大多数问题其实是治疗选择、临床文书、患者沟通这类真实任务；医生在解释偏好时，更常提到的是深度、细节、清晰度和临床表达质量，而不只是'谁更像标准答案'。

这说明一个老问题正在被重新摆上台面：benchmark 高分，不等于临床工作流里更有用。

所以 MedArena 的价值，不只是又一个新榜单，而是代表了一种更合理的评测方向：把真实使用者偏好重新放回评估中心。

4. MiroThinker-H1：研究 Agent 开始把 verification 内置进推理流程

论文： MiroThinker-1.7 & H1: Towards Heavy-Duty Research Agents via Verification
链接： https://arxiv.org/abs/2603.15726

研究型 Agent 现在的问题已经越来越清楚：不是不会搜，也不是不会写，而是长链条推理容易漂，多步工具调用容易积累误差，最终答案和证据链可能脱节。

MiroThinker-H1 的核心卖点，就是把 verification 直接嵌进 reasoning 过程，而不只是最后加一个 checker。作者做了 local level 和 global level 两层验证：前者评估和修正中间推理步骤，后者审计整条推理轨迹，确保最终答案和证据链一致。

这背后的方向我很认同，因为很多 agent 系统的 verification 现在太后置了。前面路径一旦偏了，后面很难真正救回来。verification 内生到推理里，通常意味着更高成本，但也意味着更高稳定性。

5. Golden Ticket：机器人生成式策略里，初始噪声居然能变成可搜索的杠杆

论文： You've Got a Golden Ticket: Improving Generative Robot Policies With A Single Noise Vector
链接： https://arxiv.org/abs/2603.15757

这篇是我今天觉得最有意思的机器人论文之一。问题设定很巧：很多 diffusion policy 或 flow matching policy 都从随机初始噪声开始采样动作。大家通常把这个噪声当成起点，但这篇在问：如果不随机采样，而是找到一个特别好的固定噪声向量，会怎样？

作者把这个向量叫做 golden ticket，并用 Monte-Carlo policy evaluation 去搜索它。在不改模型参数、不训练新网络的前提下，就能明显提升下游任务表现。

这篇真正有价值的地方，是它提醒大家：生成式策略里的随机性，不只是不可控噪声，也可能是一个可优化接口。 我会把它看成一种低成本的 inference-time steering 方法，而不是训练范式革命，但正因为便宜，才值得关注。

6. SimDist：世界模型的 sim-to-real 迁移，更强调'先蒸馏结构，再在线适配'

论文： Simulation Distillation: Pretraining World Models in Simulation for Rapid Real-World Adaptation
链接： https://arxiv.org/abs/2603.15759

sim-to-real 一直是机器人里的硬问题。很多方法的问题不在于 idea 不好，而在于真实世界数据贵、在线探索风险大、长时 credit assignment 太难。

SimDist 的核心思路，是先在仿真里把结构先学出来，再把真实世界适配问题尽量压缩成短时系统辨识问题。作者把 simulator 里的结构先蒸馏到 latent world model 里，同时把 reward 和 value model 直接从仿真迁过去；真实部署时，主要做 online planning 和 supervised dynamics finetuning。

这类思路我很看好，因为它和最近机器人方向的大趋势一致：不把真实世界当主训练场，尽量在 sim 里吸收结构先验，到真实世界只做必要的快速对齐。

今天这 6 篇，能看出什么趋势？

如果把今天这批论文放在一起看，我觉得至少有 4 个信号很明显：

LLM / Agent 正在从'会不会推理'转向'怎么管理记忆与控制过程'
评测正在从静态题库转向真实使用场景
机器人里，inference-time 优化和结构蒸馏越来越重要
比起单纯堆大模型，更会利用结构的工作更值得看

我会优先建议你看哪几篇？

如果时间有限，我会这样排：

第一梯队： NextMem、SRLM、MedArena
第二梯队： MiroThinker-H1、Golden Ticket、SimDist

结语

今天这批论文给我的整体感觉是：AI 系统正在从'把模型做得更强'逐渐转向'把系统做得更稳'。

这里的稳，包括记忆更稳、长上下文读取更稳、评测更贴近真实使用、Agent 推理链更可验证、机器人策略更可控、sim-to-real 迁移更可落地。

真正进入工作流的 AI，最后拼的从来不只是峰值能力，而是：在复杂环境里，能不能持续、可靠、可控地做对事。

最新 AI 论文盘点：6 篇新作看记忆、长上下文、医疗评测、机器人策略与世界模型

猫巷少女发布于 2026/4/8更新于 2026/5/2216 浏览

今天这批新论文里，我觉得有几条线特别值得看。

一条是 LLM / Agent 的记忆与长上下文，讨论怎么把'记住信息'和'真正用好上下文'这两件事拆开来做。

一条是医疗与真实场景评测，重点不再是静态 benchmark，而是更贴近临床和工作流的真实使用偏好。

还有一条是机器人与具身智能，不少工作开始把重点放在'少改模型、更多利用结构和搜索'上，而不是一味增大训练规模。

这篇挑 6 篇我认为更值得盘的论文，尽量少复述摘要，多讲它到底在解决什么问题、方法核心新在哪里、为什么值得关注、局限和边界是什么。

1. NextMem：给 LLM Agent 做'潜在事实记忆'

论文： NextMem: Towards Latent Factual Memory for LLM-based Agents
链接： https://arxiv.org/abs/2603.15634

这篇论文关注的是一个很实际的问题：Agent 的事实记忆到底该怎么存？

现在主流做法，一类是文本记忆，简单但上下文越来越长、检索开销越来越高；另一类是参数化记忆，更'内生'，但容易灾难性遗忘，更新和维护也贵。

2. SRLM：长上下文不只是扩窗口，关键是怎么搜索'读法'

论文： Recursive Language Models Meet Uncertainty: The Surprising Effectiveness of Self-Reflective Program Search for Long Context
链接： https://arxiv.org/abs/2603.15653

长上下文这两年有个很典型的问题：模型窗口变长了，不代表它真的更会用长上下文。

这篇论文沿着 Recursive Language Models 那条线往前推，但一个很有意思的结论是：真正有效的，未必是 recursion 本身，而可能是更好的 program search。

3. MedArena：医疗 LLM 评测开始从静态题库转向真实临床偏好

论文： MedArena: Comparing LLMs for Medicine-in-the-Wild Clinician Preferences
链接： https://arxiv.org/abs/2603.15677

这篇我觉得非常值得看，尤其如果你关心医疗 AI。

它在做一件很对的事：别再只拿静态医疗 benchmark 当全部答案了。作者提出 MedArena，一个让临床医生直接拿自己的真实医疗问题去比较模型的平台。

这说明一个老问题正在被重新摆上台面：benchmark 高分，不等于临床工作流里更有用。

所以 MedArena 的价值，不只是又一个新榜单，而是代表了一种更合理的评测方向：把真实使用者偏好重新放回评估中心。

4. MiroThinker-H1：研究 Agent 开始把 verification 内置进推理流程

论文： MiroThinker-1.7 & H1: Towards Heavy-Duty Research Agents via Verification
链接： https://arxiv.org/abs/2603.15726

5. Golden Ticket：机器人生成式策略里，初始噪声居然能变成可搜索的杠杆

论文： You've Got a Golden Ticket: Improving Generative Robot Policies With A Single Noise Vector
链接： https://arxiv.org/abs/2603.15757

作者把这个向量叫做 golden ticket，并用 Monte-Carlo policy evaluation 去搜索它。在不改模型参数、不训练新网络的前提下，就能明显提升下游任务表现。

6. SimDist：世界模型的 sim-to-real 迁移，更强调'先蒸馏结构，再在线适配'

论文： Simulation Distillation: Pretraining World Models in Simulation for Rapid Real-World Adaptation
链接： https://arxiv.org/abs/2603.15759

sim-to-real 一直是机器人里的硬问题。很多方法的问题不在于 idea 不好，而在于真实世界数据贵、在线探索风险大、长时 credit assignment 太难。

这类思路我很看好，因为它和最近机器人方向的大趋势一致：不把真实世界当主训练场，尽量在 sim 里吸收结构先验，到真实世界只做必要的快速对齐。

今天这 6 篇，能看出什么趋势？

如果把今天这批论文放在一起看，我觉得至少有 4 个信号很明显：

LLM / Agent 正在从'会不会推理'转向'怎么管理记忆与控制过程'
评测正在从静态题库转向真实使用场景
机器人里，inference-time 优化和结构蒸馏越来越重要
比起单纯堆大模型，更会利用结构的工作更值得看

我会优先建议你看哪几篇？

如果时间有限，我会这样排：

第一梯队： NextMem、SRLM、MedArena
第二梯队： MiroThinker-H1、Golden Ticket、SimDist

结语

今天这批论文给我的整体感觉是：AI 系统正在从'把模型做得更强'逐渐转向'把系统做得更稳'。

这里的稳，包括记忆更稳、长上下文读取更稳、评测更贴近真实使用、Agent 推理链更可验证、机器人策略更可控、sim-to-real 迁移更可落地。

真正进入工作流的 AI，最后拼的从来不只是峰值能力，而是：在复杂环境里，能不能持续、可靠、可控地做对事。

最新 AI 论文盘点：6 篇新作看记忆、长上下文、医疗评测、机器人策略与世界模型

1. NextMem：给 LLM Agent 做'潜在事实记忆'

2. SRLM：长上下文不只是扩窗口，关键是怎么搜索'读法'

3. MedArena：医疗 LLM 评测开始从静态题库转向真实临床偏好

4. MiroThinker-H1：研究 Agent 开始把 verification 内置进推理流程

5. Golden Ticket：机器人生成式策略里，初始噪声居然能变成可搜索的杠杆

6. SimDist：世界模型的 sim-to-real 迁移，更强调'先蒸馏结构，再在线适配'

今天这 6 篇，能看出什么趋势？

我会优先建议你看哪几篇？

结语

最新 AI 论文盘点：6 篇新作看记忆、长上下文、医疗评测、机器人策略与世界模型

1. NextMem：给 LLM Agent 做'潜在事实记忆'

2. SRLM：长上下文不只是扩窗口，关键是怎么搜索'读法'

3. MedArena：医疗 LLM 评测开始从静态题库转向真实临床偏好

4. MiroThinker-H1：研究 Agent 开始把 verification 内置进推理流程

5. Golden Ticket：机器人生成式策略里，初始噪声居然能变成可搜索的杠杆

6. SimDist：世界模型的 sim-to-real 迁移，更强调'先蒸馏结构，再在线适配'

今天这 6 篇，能看出什么趋势？

我会优先建议你看哪几篇？

结语

更多推荐文章

相关免费在线工具

更多推荐文章

相关免费在线工具

最新 AI 论文盘点：6 篇新作看记忆、长上下文、医疗评测、机器人策略与世界模型

1. NextMem：给 LLM Agent 做'潜在事实记忆'

2. SRLM：长上下文不只是扩窗口，关键是怎么搜索'读法'

3. MedArena：医疗 LLM 评测开始从静态题库转向真实临床偏好

4. MiroThinker-H1：研究 Agent 开始把 verification 内置进推理流程

5. Golden Ticket：机器人生成式策略里，初始噪声居然能变成可搜索的杠杆

6. SimDist：世界模型的 sim-to-real 迁移，更强调'先蒸馏结构，再在线适配'

今天这 6 篇，能看出什么趋势？

我会优先建议你看哪几篇？

结语

最新 AI 论文盘点：6 篇新作看记忆、长上下文、医疗评测、机器人策略与世界模型

1. NextMem：给 LLM Agent 做'潜在事实记忆'

2. SRLM：长上下文不只是扩窗口，关键是怎么搜索'读法'

3. MedArena：医疗 LLM 评测开始从静态题库转向真实临床偏好

4. MiroThinker-H1：研究 Agent 开始把 verification 内置进推理流程

5. Golden Ticket：机器人生成式策略里，初始噪声居然能变成可搜索的杠杆

6. SimDist：世界模型的 sim-to-real 迁移，更强调'先蒸馏结构，再在线适配'

今天这 6 篇，能看出什么趋势？

我会优先建议你看哪几篇？

结语

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具