突破 LLM 上下文瓶颈：上下文内存虚拟化 CMV 的设计与实践

一种名为上下文内存虚拟化（CMV）的技术，旨在解决大语言模型长会话中上下文窗口受限及状态易丢失的问题。CMV 借鉴操作系统虚拟内存理念，通过基于有向无环图（DAG）的状态模型实现会话的版本化管理与跨会话复用，并配合三阶段结构无损修剪算法，在保留核心对话原文的前提下剥离机械冗余内容。经实证评估，该技术平均减少 20% 令牌消耗，最高达 86%，且在提示缓存机制下具备经济可行性，为 LLM 智能体的持久化上下文管理提供了工具层解决方案。

暗影行者发布于 2026/4/6更新于 2026/7/2448 浏览

突破 LLM 上下文瓶颈：上下文内存虚拟化 CMV 的设计与实践

论文基础信息

原标题：Contextual Memory Virtualisation: DAG-Based State Management and Structurally Lossless Trimming for LLM Agents
主要作者：Cosmo Santoni
研究机构：帝国理工学院（Imperial College London）
发表时间：2026 年 2 月
引文格式（GB/T 7714）：SANTONI C. Contextual memory virtualisation: DAG-based state management and structurally lossless trimming for LLM agents[EB/OL]. [2026-02-25]. arXiv:2602.22402v1 [cs.SE].
开源代码：https://github.com/CosmoNaught/claude-code-cmv

研究背景

大语言模型（LLM）在代码编写、复杂推理等长时工作会话中，会逐步积累大量核心状态——比如代码库的架构映射、技术选型的权衡决策、项目的编码规范等，这些内容构成了 LLM 对任务的完整心智模型，但构建这一模型需要消耗大量的时间和令牌成本。

当会话积累的内容触达 LLM 的上下文窗口上限时，平台的原生压缩功能会对已有内容做大幅精简，例如 Claude Code 的/compact 指令曾将 132k 令牌的会话内容压缩至 2.3k 令牌，直接丢弃了 98% 的细节信息，让 LLM 失去了耗时构建的精细理解。而新的会话只能从头重建上下文，这造成了根本性的效率浪费。

现有解决方案均存在明显短板：检索增强生成（RAG）仅能补充文档，无法保留会话状态；MemGPT 仅支持单会话的内存分页，不能跨会话复用；记忆插件只保存摘要，丢失对话细节；而 LongLLMLingua 等提示压缩技术，仅在模型/嵌入层修改上下文表示，未处理原始对话日志的结构冗余。

简单来说，当前 LLM 的上下文管理就像没有保存功能的记事本，写满了只能删掉重来，而开发者亟需一种能'保存进度、复用内容、精简冗余'的上下文管理方案，这正是本研究的核心出发点。

一段话总结

这篇 2026 年 2 月发表的研究提出了上下文内存虚拟化（CMV） 技术，为 LLM 智能体解决长会话中上下文窗口受限、状态易丢失的问题，其核心是基于 DAG 的状态模型 实现会话状态的版本化管理与跨会话复用，搭配三阶段结构无损修剪算法，在完整保留用户与助手对话原文的前提下剥离机械冗余内容，平均减少 20% 令牌数、最高达 86%，混合工具使用会话平均减 39%；经 76 个真实编码会话的单用户案例评估，该技术在提示缓存机制下具备经济可行性，混合工具会话 10 轮内即可实现成本盈亏平衡，同时 CMV 通过分支功能避免了从头重建上下文的高额成本，虽存在修剪无语义判断的局限性，但为 LLM 智能体的上下文管理提供了工具层解决方案，也为未来 AIOS 架构的持久化上下文子系统设计提供了参考。

详细总结

本文由帝国理工学院的 Cosmo Santoni 于 2026 年 2 月发表，聚焦 LLM 智能体长会话中上下文窗口受限、累积状态易丢失的核心问题，提出上下文内存虚拟化（CMV） 技术，从模型设计、算法实现、经济验证三方面完成方案落地，并分析了技术局限性与未来研究方向，最终验证了工具层解决 LLM 上下文短暂性问题的可行性。

一、研究背景与现存问题

LLM 长会话的核心痛点：LLM 编码智能体在长时工作中会累积代码库架构、决策等大量状态，上下文窗口满后，原生压缩（如 Claude Code 的/compact）会大幅精简令牌（实测 132k 令牌压缩至 2.3k，减少 98%），丢失精细理解，新会话需从头重建上下文，存在根本性效率低下。
现有解决方案的局限
- 状态保留类：RAG 仅增强提示不保留会话状态；MemGPT 仅支持单会话内存分页；记忆插件仅保存摘要，丢失对话细节；原生会话工具无命名状态和谱系跟踪。
- 提示压缩类：LongLLMLingua、RECOMP 等技术聚焦模型/嵌入层的上下文表示修改，未处理原始对话日志的结构冗余，与本文方案形成互补。

突破 LLM 上下文瓶颈：上下文内存虚拟化 CMV 的设计与实践

论文基础信息

原标题：Contextual Memory Virtualisation: DAG-Based State Management and Structurally Lossless Trimming for LLM Agents
主要作者：Cosmo Santoni
研究机构：帝国理工学院（Imperial College London）
发表时间：2026 年 2 月
引文格式（GB/T 7714）：SANTONI C. Contextual memory virtualisation: DAG-based state management and structurally lossless trimming for LLM agents[EB/OL]. [2026-02-25]. arXiv:2602.22402v1 [cs.SE].
开源代码：https://github.com/CosmoNaught/claude-code-cmv

研究背景

一段话总结

详细总结

一、研究背景与现存问题

LLM 长会话的核心痛点：LLM 编码智能体在长时工作中会累积代码库架构、决策等大量状态，上下文窗口满后，原生压缩（如 Claude Code 的/compact）会大幅精简令牌（实测 132k 令牌压缩至 2.3k，减少 98%），丢失精细理解，新会话需从头重建上下文，存在根本性效率低下。
现有解决方案的局限
- 状态保留类：RAG 仅增强提示不保留会话状态；MemGPT 仅支持单会话内存分页；记忆插件仅保存摘要，丢失对话细节；原生会话工具无命名状态和谱系跟踪。
- 提示压缩类：LongLLMLingua、RECOMP 等技术聚焦模型/嵌入层的上下文表示修改，未处理原始对话日志的结构冗余，与本文方案形成互补。

模型	基础输入 (/百万令牌)∣缓存写 (/百万令牌)	缓存写 (/百万令牌)∣缓存写 (/百万令牌)	缓存读 ($/百万令牌)
Opus 4.6	5.00	6.25	0.50

模型

基础输入 (/百万令牌)∣缓存写 (/百万令牌)

缓存写 (/百万令牌)∣缓存写 (/百万令牌)

缓存读 ($/百万令牌)

Opus 4.6

5.00

6.25

0.50

会话类型	数量	平均令牌减少	中位数令牌减少	平均盈亏平衡轮数	平均上下文令牌
混合工具型 (≥15%)	12	39%	33%	10 轮	97k
会话型 (<15%)	64	17%	-	40 轮	82k
所有会话	76	20%	12%	35 轮	84k

会话类型

数量

平均令牌减少

中位数令牌减少

平均盈亏平衡轮数

平均上下文令牌

混合工具型 (≥15%)

39%

33%

10 轮

97k

会话型 (<15%)

17%

40 轮

82k

所有会话

20%

12%

35 轮

84k

评估维度	整体结果	混合工具型会话（12 个）	会话型会话（64 个）
平均令牌压缩率	20%	39%	17%
峰值令牌压缩率	86%	-	-
平均盈亏平衡轮数	35 轮	10 轮	40 轮
平均上下文令牌数	84k	97k	82k
令牌压缩>30% 的盈亏平衡	15 轮内	-	-

突破 LLM 上下文瓶颈：上下文内存虚拟化 CMV 的设计与实践

突破 LLM 上下文瓶颈：上下文内存虚拟化 CMV 的设计与实践

论文基础信息

研究背景

一段话总结

详细总结

一、研究背景与现存问题

突破 LLM 上下文瓶颈：上下文内存虚拟化 CMV 的设计与实践

突破 LLM 上下文瓶颈：上下文内存虚拟化 CMV 的设计与实践

论文基础信息

研究背景

一段话总结

详细总结

一、研究背景与现存问题

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

二、CMV 的核心设计与贡献

三、基于 DAG 的状态模型

四、三阶段结构无损修剪算法

五、经济评估：提示缓存下的可行性验证

六、局限性与未来工作

七、研究结论

关键问题

问题 1：上下文内存虚拟化（CMV）与现有 LLM 上下文压缩/管理技术的核心区别是什么？

问题 2：三阶段结构无损修剪算法的'结构无损'体现在哪里？为何要设计三阶段流程而非单阶段？

问题 3：从经济和实际使用角度，CMV 对 LLM API 用户和订阅用户的核心价值分别是什么？不同类型的会话（混合工具型/会话型）使用 CMV 的收益差异为何显著？

创新点

研究方法和思路

模块 1：DAG-Based 状态模型设计

1.1 形式定义

1.2 四大核心操作

模块 2：三阶段结构无损修剪算法

关键难点解决：孤儿工具结果处理

模块 3：经济评估方法

主要成果和贡献

一、核心量化成果（基于 76 个真实编码会话）

二、技术层面贡献

三、经济与应用层面价值

四、领域研究贡献

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具