2026-03-18 AI 论文盘点：6 篇新作看记忆、长上下文与机器人策略

这批新论文里，有几条线索特别值得关注。

一条是 LLM / Agent 的记忆与长上下文，讨论怎么把'记住信息'和'真正用好上下文'这两件事拆开来做。

一条是医疗与真实场景评测，重点不再是静态 benchmark，而是更贴近临床和工作流的真实使用偏好。

还有一条是机器人与具身智能，不少工作开始把重点放在'少改模型、更多利用结构和搜索'上，而不是一味增大训练规模。

这里精选了 6 篇我认为更有价值的论文，少复述摘要，多讲它到底在解决什么问题、方法核心新在哪里、为什么值得关注、局限和边界是什么。

1. NextMem：给 LLM Agent 做'潜在事实记忆'

论文： NextMem: Towards Latent Factual Memory for LLM-based Agents 链接： https://arxiv.org/abs/2603.15634

这篇论文关注的是一个很实际的问题：Agent 的事实记忆到底该怎么存？

现在主流做法，一类是文本记忆，简单但上下文越来越长、检索开销越来越高；另一类是参数化记忆，更'内生'，但容易灾难性遗忘，更新和维护也贵。

NextMem 的思路，是往中间走一步：做 latent factual memory，也就是潜在空间里的事实记忆。作者用自回归自编码器把事实压缩进 latent memory，再保证还能准确重建；训练上用了两阶段策略，并加入量化来降低存储开销。

最值得关注的是，它不是在重复造轮子，而是在回答一个越来越重要的问题：Agent 的长期记忆，不一定非得是可读文本，也不一定非得是参数更新，它可以是介于两者之间的可操作压缩表示。

若该方向持续成熟，后面很可能影响个人助理型 agent、长期研究 agent、复杂任务 agent 的记忆设计。不过 latent memory 的代价也很明显：更难解释，更难排错。

2. SRLM：长上下文不只是扩窗口，关键是怎么搜索'读法'

论文： Recursive Language Models Meet Uncertainty: The Surprising Effectiveness of Self-Reflective Program Search for Long Context 链接： https://arxiv.org/abs/2603.15653

长上下文这两年有个很典型的问题：模型窗口变长了，不代表它真的更会用长上下文。

这篇论文沿着 Recursive Language Models 那条线往前推，但一个很有意思的结论是：真正有效的，未必是 recursion 本身，而可能是更好的 program search。

他们提出的 SRLM，在程序化上下文交互里加入 uncertainty-aware self-reflection，用 self-consistency、reasoning length、verbalized confidence 这些内部信号去比较不同上下文交互程序。

这带来两点启发：第一，长上下文问题很可能不是纯架构问题，而是搜索与控制问题；第二，递归策略如果选不好，不但不会更强，反而可能拖后腿。对 Agent 系统来说，这个提醒很重要。

3. MedArena：医疗 LLM 评测开始从静态题库转向真实临床偏好

论文： MedArena: Comparing LLMs for Medicine-in-the-Wild Clinician Preferences 链接： https://arxiv.org/abs/2603.15677

这篇尤其值得关注，如果你关心医疗 AI。

它做了一件很有意义的事：别再只拿静态医疗 benchmark 当全部答案了。作者提出 MedArena，一个让临床医生直接拿自己的真实医疗问题去比较模型的平台。

结果中最有意思的，不只是模型排名，而是作者发现：只有大约三分之一的问题像传统 MedQA 那样偏事实回忆；大多数问题其实是治疗选择、临床文书、患者沟通这类真实任务；医生在解释偏好时，更常提到的是深度、细节、清晰度和临床表达质量，而不只是'谁更像标准答案'。

这表明一个老问题正被重新审视：

2026-03-18 AI 论文盘点：6 篇新作看记忆、长上下文与机器人策略