6 篇新论文：记忆、长上下文、医疗评测与机器人策略

这批论文里，几条线索很清楚。

一条是 LLM / Agent 的记忆和长上下文。重点已经不只是'窗口开多大'，而是怎么把记住信息、检索信息、真正用好上下文这几件事拆开。

一条是医疗评测。大家开始意识到，静态 benchmark 的分数只能说明一部分问题，真实临床里医生到底更偏好什么，可能更关键。

还有一条是机器人和具身智能。很多工作都在往'少改模型，多用结构和搜索'这个方向走，思路比单纯堆训练规模更务实。

下面挑 6 篇我觉得值得看的论文，尽量不重复摘要，只讲它们在解决什么、方法新在哪、边界又在哪里。

1. NextMem：给 LLM Agent 做'潜在事实记忆'

论文： NextMem: Towards Latent Factual Memory for LLM-based Agents
链接： https://arxiv.org/abs/2603.15634

Agent 的事实记忆该怎么存，一直是个挺实际的问题。文本记忆最直观，但上下文会越拖越长，检索成本也跟着上去；参数化记忆更内生，但更新麻烦，遗忘也更难处理。

NextMem 走的是中间路线：把事实压进 latent factual memory，也就是潜在空间里的事实表示。作者用自回归自编码器做压缩和重建，再配合两阶段训练和量化，去控制存储开销。

这篇有意思的地方在于，它没有执着于'记忆必须是文本'或者'记忆必须写进参数'。它给出的答案更像是：长期记忆可以先变成一种可操作的压缩表示，再决定什么时候展开、什么时候检索。

这条路如果走通，个人助理、研究型 agent、复杂任务 agent 的记忆设计都会受影响。不过代价也摆在那儿，latent memory 解释性差，排错不会轻松。

2. SRLM：长上下文的问题，可能更像搜索问题

论文： Recursive Language Models Meet Uncertainty: The Surprising Effectiveness of Self-Reflective Program Search for Long Context
链接： https://arxiv.org/abs/2603.15653

长上下文这几年经常被当成'窗口越大越强'，但实际用起来不是这么回事。模型能看更多字，不代表它真的会挑重点、会组织阅读顺序。

这篇论文沿着 Recursive Language Models 的方向继续做，但最后落点很有意思：真正起作用的，未必是 recursion 本身，而是更好的 program search。作者提出 SRLM，把 uncertainty-aware self-reflection 加进去，再结合 self-consistency、reasoning length、verbalized confidence 这些信号，比较不同的上下文交互程序。

我觉得它给出的提醒很直接：长上下文不是纯架构问题，也不是单纯把输入拉长就完事，控制策略和搜索方式一样重要。递归策略选得不好，反而会把系统带偏。

3. MedArena：医疗 LLM 评测开始回到真实使用场景

论文： MedArena: Comparing LLMs for Medicine-in-the-Wild Clinician Preferences
链接： https://arxiv.org/abs/2603.15677

如果关心医疗 AI，这篇挺值得看。

它做的事情其实很朴素：别总拿静态医疗 benchmark 当最终答案了，让临床医生拿真实问题来比较模型。MedArena 就是在这个思路下做的一个平台。

结果也挺说明问题。作者发现，只有大约三分之一的问题像传统 MedQA 那样偏事实回忆，大多数其实是治疗选择、临床文书、患者沟通这类真实工作；医生在解释偏好时，也更看重深度、细节、清晰度和临床表达，而不只是'像不像标准答案'。

这说明一个老问题还在，而且比以前更明显：benchmark 高分，不等于临床工作流里更有用。MedArena 的价值不只是多了一个榜单，而是把'真实使用者怎么选'重新拉回评测中心。

6 篇新论文：记忆、长上下文、医疗评测与机器人策略