6 篇新论文:记忆、长上下文、医疗评测与机器人策略
这批论文里,几条线索很清楚。
一条是 LLM / Agent 的记忆和长上下文。重点已经不只是'窗口开多大',而是怎么把记住信息、检索信息、真正用好上下文这几件事拆开。
一条是医疗评测。大家开始意识到,静态 benchmark 的分数只能说明一部分问题,真实临床里医生到底更偏好什么,可能更关键。
还有一条是机器人和具身智能。很多工作都在往'少改模型,多用结构和搜索'这个方向走,思路比单纯堆训练规模更务实。
下面挑 6 篇我觉得值得看的论文,尽量不重复摘要,只讲它们在解决什么、方法新在哪、边界又在哪里。
1. NextMem:给 LLM Agent 做'潜在事实记忆'
论文: NextMem: Towards Latent Factual Memory for LLM-based Agents
链接: https://arxiv.org/abs/2603.15634
Agent 的事实记忆该怎么存,一直是个挺实际的问题。文本记忆最直观,但上下文会越拖越长,检索成本也跟着上去;参数化记忆更内生,但更新麻烦,遗忘也更难处理。
NextMem 走的是中间路线:把事实压进 latent factual memory,也就是潜在空间里的事实表示。作者用自回归自编码器做压缩和重建,再配合两阶段训练和量化,去控制存储开销。
这篇有意思的地方在于,它没有执着于'记忆必须是文本'或者'记忆必须写进参数'。它给出的答案更像是:长期记忆可以先变成一种可操作的压缩表示,再决定什么时候展开、什么时候检索。
这条路如果走通,个人助理、研究型 agent、复杂任务 agent 的记忆设计都会受影响。不过代价也摆在那儿,latent memory 解释性差,排错不会轻松。
2. SRLM:长上下文的问题,可能更像搜索问题
论文: Recursive Language Models Meet Uncertainty: The Surprising Effectiveness of Self-Reflective Program Search for Long Context
链接: https://arxiv.org/abs/2603.15653
长上下文这几年经常被当成'窗口越大越强',但实际用起来不是这么回事。模型能看更多字,不代表它真的会挑重点、会组织阅读顺序。
这篇论文沿着 Recursive Language Models 的方向继续做,但最后落点很有意思:真正起作用的,未必是 recursion 本身,而是更好的 program search。作者提出 SRLM,把 uncertainty-aware self-reflection 加进去,再结合 self-consistency、reasoning length、verbalized confidence 这些信号,比较不同的上下文交互程序。
我觉得它给出的提醒很直接:长上下文不是纯架构问题,也不是单纯把输入拉长就完事,控制策略和搜索方式一样重要。递归策略选得不好,反而会把系统带偏。
3. MedArena:医疗 LLM 评测开始回到真实使用场景
论文: MedArena: Comparing LLMs for Medicine-in-the-Wild Clinician Preferences
链接: https://arxiv.org/abs/2603.15677
如果关心医疗 AI,这篇挺值得看。
它做的事情其实很朴素:别总拿静态医疗 benchmark 当最终答案了,让临床医生拿真实问题来比较模型。MedArena 就是在这个思路下做的一个平台。
结果也挺说明问题。作者发现,只有大约三分之一的问题像传统 MedQA 那样偏事实回忆,大多数其实是治疗选择、临床文书、患者沟通这类真实工作;医生在解释偏好时,也更看重深度、细节、清晰度和临床表达,而不只是'像不像标准答案'。
这说明一个老问题还在,而且比以前更明显:benchmark 高分,不等于临床工作流里更有用。MedArena 的价值不只是多了一个榜单,而是把'真实使用者怎么选'重新拉回评测中心。

