最新 AI 论文盘点(2026-03-18):6 篇新作看记忆、长上下文、医疗评测、机器人策略与世界模型

最新 AI 论文盘点(2026-03-18):6 篇新作看记忆、长上下文、医疗评测、机器人策略与世界模型

今天这批新论文里,我觉得有几条线特别值得看。

一条是 LLM / Agent 的记忆与长上下文,讨论怎么把“记住信息”和“真正用好上下文”这两件事拆开来做。

一条是医疗与真实场景评测,重点不再是静态 benchmark,而是更贴近临床和工作流的真实使用偏好。

还有一条是机器人与具身智能,不少工作开始把重点放在“少改模型、更多利用结构和搜索”上,而不是一味增大训练规模。

这篇挑 6 篇我认为更值得盘的论文,尽量少复述摘要,多讲它到底在解决什么问题、方法核心新在哪里、为什么值得关注、局限和边界是什么。


1. NextMem:给 LLM Agent 做“潜在事实记忆”

论文: NextMem: Towards Latent Factual Memory for LLM-based Agents
链接: https://arxiv.org/abs/2603.15634

这篇论文关注的是一个很实际的问题:Agent 的事实记忆到底该怎么存?

现在主流做法,一类是文本记忆,简单但上下文越来越长、检索开销越来越高;另一类是参数化记忆,更“内生”,但容易灾难性遗忘,更新和维护也贵。

NextMem 的思路,是往中间走一步:做 latent factual memory,也就是潜在空间里的事实记忆。作者用自回归自编码器把事实压缩进 latent memory,再保证还能准确重建;训练上用了两阶段策略,并加入量化来降低存储开销。

我觉得它最值得注意的地方,不是又做了一个 memory module,而是在回答一个越来越重要的问题:Agent 的长期记忆,不一定非得是可读文本,也不一定非得是参数更新,它可以是介于两者之间的可操作压缩表示。

如果这个方向继续成熟,后面很可能影响个人助理型 agent、长期研究 agent、复杂任务 agent 的记忆设计。不过 latent memory 的代价也很明显:更难解释,更难排错。


2. SRLM:长上下文不只是扩窗口,关键是怎么搜索“读法”

论文: Recursive Language Models Meet Uncertainty: The Surprising Effectiveness of Self-Reflective Program Search for Long Context
链接: https://arxiv.org/abs/2603.15653

长上下文这两年有个很典型的问题:模型窗口变长了,不代表它真的更会用长上下文。

这篇论文沿着 Recursive Language Models 那条线往前推,但一个很有意思的结论是:真正有效的,未必是 recursion 本身,而可能是更好的 program search。

他们提出的 SRLM,在程序化上下文交互里加入 uncertainty-aware self-reflection,用 self-consistency、reasoning length、verbalized confidence 这些内部信号去比较不同上下文交互程序。

这篇有两个启发:第一,长上下文问题很可能不是纯架构问题,而是搜索与控制问题;第二,递归策略如果选不好,不但不会更强,反而可能拖后腿。对 Agent 系统来说,这个提醒很重要。


3. MedArena:医疗 LLM 评测开始从静态题库转向真实临床偏好

论文: MedArena: Comparing LLMs for Medicine-in-the-Wild Clinician Preferences
链接: https://arxiv.org/abs/2603.15677

这篇我觉得非常值得看,尤其如果你关心医疗 AI。

它在做一件很对的事:别再只拿静态医疗 benchmark 当全部答案了。作者提出 MedArena,一个让临床医生直接拿自己的真实医疗问题去比较模型的平台。

结果里最有意思的,不只是模型排名,而是作者发现:只有大约三分之一的问题像传统 MedQA 那样偏事实回忆;大多数问题其实是治疗选择、临床文书、患者沟通这类真实任务;医生在解释偏好时,更常提到的是深度、细节、清晰度和临床表达质量,而不只是“谁更像标准答案”。

这说明一个老问题正在被重新摆上台面:benchmark 高分,不等于临床工作流里更有用。

所以 MedArena 的价值,不只是又一个新榜单,而是代表了一种更合理的评测方向:把真实使用者偏好重新放回评估中心。


4. MiroThinker-H1:研究 Agent 开始把 verification 内置进推理流程

论文: MiroThinker-1.7 & H1: Towards Heavy-Duty Research Agents via Verification
链接: https://arxiv.org/abs/2603.15726

研究型 Agent 现在的问题已经越来越清楚:不是不会搜,也不是不会写,而是长链条推理容易漂,多步工具调用容易积累误差,最终答案和证据链可能脱节。

MiroThinker-H1 的核心卖点,就是把 verification 直接嵌进 reasoning 过程,而不只是最后加一个 checker。作者做了 local level 和 global level 两层验证:前者评估和修正中间推理步骤,后者审计整条推理轨迹,确保最终答案和证据链一致。

这背后的方向我很认同,因为很多 agent 系统的 verification 现在太后置了。前面路径一旦偏了,后面很难真正救回来。verification 内生到推理里,通常意味着更高成本,但也意味着更高稳定性。


5. Golden Ticket:机器人生成式策略里,初始噪声居然能变成可搜索的杠杆

论文: You've Got a Golden Ticket: Improving Generative Robot Policies With A Single Noise Vector
链接: https://arxiv.org/abs/2603.15757

这篇是我今天觉得最有意思的机器人论文之一。问题设定很巧:很多 diffusion policy 或 flow matching policy 都从随机初始噪声开始采样动作。大家通常把这个噪声当成起点,但这篇在问:如果不随机采样,而是找到一个特别好的固定噪声向量,会怎样?

作者把这个向量叫做 golden ticket,并用 Monte-Carlo policy evaluation 去搜索它。在不改模型参数、不训练新网络的前提下,就能明显提升下游任务表现。

这篇真正有价值的地方,是它提醒大家:生成式策略里的随机性,不只是不可控噪声,也可能是一个可优化接口。 我会把它看成一种低成本的 inference-time steering 方法,而不是训练范式革命,但正因为便宜,才值得关注。


6. SimDist:世界模型的 sim-to-real 迁移,更强调“先蒸馏结构,再在线适配”

论文: Simulation Distillation: Pretraining World Models in Simulation for Rapid Real-World Adaptation
链接: https://arxiv.org/abs/2603.15759

sim-to-real 一直是机器人里的硬问题。很多方法的问题不在于 idea 不好,而在于真实世界数据贵、在线探索风险大、长时 credit assignment 太难。

SimDist 的核心思路,是先在仿真里把结构先学出来,再把真实世界适配问题尽量压缩成短时系统辨识问题。作者把 simulator 里的结构先蒸馏到 latent world model 里,同时把 reward 和 value model 直接从仿真迁过去;真实部署时,主要做 online planning 和 supervised dynamics finetuning。

这类思路我很看好,因为它和最近机器人方向的大趋势一致:不把真实世界当主训练场,尽量在 sim 里吸收结构先验,到真实世界只做必要的快速对齐。


今天这 6 篇,能看出什么趋势?

如果把今天这批论文放在一起看,我觉得至少有 4 个信号很明显:

  • LLM / Agent 正在从“会不会推理”转向“怎么管理记忆与控制过程”
  • 评测正在从静态题库转向真实使用场景
  • 机器人里,inference-time 优化和结构蒸馏越来越重要
  • 比起单纯堆大模型,更会利用结构的工作更值得看

我会优先建议你看哪几篇?

如果时间有限,我会这样排:

  • 第一梯队: NextMem、SRLM、MedArena
  • 第二梯队: MiroThinker-H1、Golden Ticket、SimDist

结语

今天这批论文给我的整体感觉是:AI 系统正在从“把模型做得更强”逐渐转向“把系统做得更稳”。

这里的稳,包括记忆更稳、长上下文读取更稳、评测更贴近真实使用、Agent 推理链更可验证、机器人策略更可控、sim-to-real 迁移更可落地。

真正进入工作流的 AI,最后拼的从来不只是峰值能力,而是:在复杂环境里,能不能持续、可靠、可控地做对事。

Read more

Python + Selenium + AI 智能爬虫:自动识别反爬与数据提取

Python + Selenium + AI 智能爬虫:自动识别反爬与数据提取

结合 Selenium 浏览器自动化与 AI 大模型能力,构建能够自动识别反爬机制、智能解析页面的新一代爬虫系统。 1. 系统架构 验证码 登录墙 正常页面 种子 URL 队列 调度器 Selenium WebDriver 反检测模块 页面渲染 AI 反爬识别 AI 验证码破解 自动登录 AI 数据提取 数据清洗管道 存储 MongoDB / CSV 数据看板 2. 反爬机制分布 35%25%20%10%7%3%常见反爬机制占比(Top 500 网站统计)JS 动态渲染请求频率限制验证码(图形/滑块)User-Agent 检测IP

构建基于Go语言的高性能命令行AI对话客户端:从环境部署到核心实现

构建基于Go语言的高性能命令行AI对话客户端:从环境部署到核心实现

前言 在现代软件开发领域,Go语言凭借其卓越的并发处理能力、静态类型安全以及高效的编译速度,已成为构建命令行工具(CLI)的首选语言之一。本文将详细阐述如何在Ubuntu Linux环境下部署Go开发环境,并结合蓝耘(Lanyun)提供的DeepSeek大模型API,手写一个支持多轮对话、上下文记忆的智能终端聊天工具。 一、 基础运行环境的准备与构建 任何上层应用的稳健运行都离不开坚实的底层系统支持。本次部署的目标环境为Ubuntu LTS系列(20.04/22.04/24.04),这些长期支持版本保证了系统库的稳定性与安全性。硬件层面,建议配置至少1GB的内存与5GB的磁盘空间,以满足编译器运行及依赖包缓存的需求。 1. 系统包索引更新与系统升级 在进行任何开发工具安装之前,首要任务是确保操作系统的软件包索引与现有软件处于最新状态。这不仅能修复已知的安全漏洞,还能避免因依赖库版本过旧导致的编译错误。 执行系统更新操作: sudoapt update &&sudoapt upgrade -y 该指令分为两部分:apt update 用于从软件源服务器获取最新的软件包列

主流 AI IDE 之一的 OpenCode 介绍

主流 AI IDE 之一的 OpenCode 介绍

一、OpenCode 是什么简介         OpenCode 是一款开源、免费的 AI 编程助手工具(不包含服务端大模型),支持在终端(TUI)、桌面应用和 IDE 中使用,可替代 Claude Code、Cursor 等商业工具客户端。OpenCode 是一款开源的 AI 编程智能体,它能在终端、桌面应用或主流 IDE 中帮助你理解代码库、编写功能、重构代码和修复 Bug,从而大幅提升开发效率 1。截至目前(2026年02月01号),它拥有超过 80,000 个 GitHub 星标和每月超过 150 万开发者使用,是目前最受欢迎的开源 AI 编程工具之一。 1.1 核心特点         • 100% 开源: