2026-03-18 AI 论文盘点:6 篇新作看记忆、长上下文与机器人策略
这批新论文里,有几条线索特别值得关注。
一条是 LLM / Agent 的记忆与长上下文,讨论怎么把'记住信息'和'真正用好上下文'这两件事拆开来做。
一条是医疗与真实场景评测,重点不再是静态 benchmark,而是更贴近临床和工作流的真实使用偏好。
还有一条是机器人与具身智能,不少工作开始把重点放在'少改模型、更多利用结构和搜索'上,而不是一味增大训练规模。
这里精选了 6 篇我认为更有价值的论文,少复述摘要,多讲它到底在解决什么问题、方法核心新在哪里、为什么值得关注、局限和边界是什么。
1. NextMem:给 LLM Agent 做'潜在事实记忆'
论文: NextMem: Towards Latent Factual Memory for LLM-based Agents 链接: https://arxiv.org/abs/2603.15634
这篇论文关注的是一个很实际的问题:Agent 的事实记忆到底该怎么存?
现在主流做法,一类是文本记忆,简单但上下文越来越长、检索开销越来越高;另一类是参数化记忆,更'内生',但容易灾难性遗忘,更新和维护也贵。
NextMem 的思路,是往中间走一步:做 latent factual memory,也就是潜在空间里的事实记忆。作者用自回归自编码器把事实压缩进 latent memory,再保证还能准确重建;训练上用了两阶段策略,并加入量化来降低存储开销。
最值得关注的是,它不是在重复造轮子,而是在回答一个越来越重要的问题:Agent 的长期记忆,不一定非得是可读文本,也不一定非得是参数更新,它可以是介于两者之间的可操作压缩表示。
若该方向持续成熟,后面很可能影响个人助理型 agent、长期研究 agent、复杂任务 agent 的记忆设计。不过 latent memory 的代价也很明显:更难解释,更难排错。
2. SRLM:长上下文不只是扩窗口,关键是怎么搜索'读法'
论文: Recursive Language Models Meet Uncertainty: The Surprising Effectiveness of Self-Reflective Program Search for Long Context 链接: https://arxiv.org/abs/2603.15653
长上下文这两年有个很典型的问题:模型窗口变长了,不代表它真的更会用长上下文。
这篇论文沿着 Recursive Language Models 那条线往前推,但一个很有意思的结论是:真正有效的,未必是 recursion 本身,而可能是更好的 program search。
他们提出的 SRLM,在程序化上下文交互里加入 uncertainty-aware self-reflection,用 self-consistency、reasoning length、verbalized confidence 这些内部信号去比较不同上下文交互程序。
这带来两点启发:第一,长上下文问题很可能不是纯架构问题,而是搜索与控制问题;第二,递归策略如果选不好,不但不会更强,反而可能拖后腿。对 Agent 系统来说,这个提醒很重要。
3. MedArena:医疗 LLM 评测开始从静态题库转向真实临床偏好
论文: MedArena: Comparing LLMs for Medicine-in-the-Wild Clinician Preferences 链接: https://arxiv.org/abs/2603.15677
这篇尤其值得关注,如果你关心医疗 AI。
它做了一件很有意义的事:别再只拿静态医疗 benchmark 当全部答案了。作者提出 MedArena,一个让临床医生直接拿自己的真实医疗问题去比较模型的平台。
结果中最有意思的,不只是模型排名,而是作者发现:只有大约三分之一的问题像传统 MedQA 那样偏事实回忆;大多数问题其实是治疗选择、临床文书、患者沟通这类真实任务;医生在解释偏好时,更常提到的是深度、细节、清晰度和临床表达质量,而不只是'谁更像标准答案'。
这表明一个老问题正被重新审视:

