RAG 这几年变化比想象中快。到了 2026,一个明显的转向是,越来越多的人开始把'图'塞进检索链路里。不是赶时髦,而是传统那一套基于向量平面相似性的做法,在企业场景下真的不够用了。
过去做 RAG,基本思路就是把文档切成块,跟查询算个余弦相似度,然后把得分最高的几段塞给 LLM 去生成答案。这个方法简单,也有效,但它只解决了一类问题:语义上'像不像'。一旦问题需要一点推理,比如'A 公司的合规缺陷可能影响哪些下游合同',或者'这个患者用了 X 药后出现的 Y 症状,与三个月前的那次诊疗记录有什么关联',纯向量检索就懵了。它不知道实体之间的关系,只能把所有相关片段都扔进去,然后祈祷模型自己能拼出答案。
这就是图检索(GraphRAG)冒出来的原因。它的存储不是一个平面向量库,而是一张知识图谱——节点是实体,边是关系。查询时,不再只靠向量相似度,而是沿着边去遍历,把多跳关联的节点都带上。这样一来,模型拿到的不是一个碎片,而是一个小范围的'上下文子图',里面既有 A 又有 B,还有它们之间的路径。推理不再是猜谜,而是沿着明确的关系走。
传统 RAG 还有两个让人头疼的老毛病,GraphRAG 解决得也比较巧妙。一个是上下文窗口有限,信息多了塞不下;另一个是'中间信息丢失'——长文本里,模型经常会忽略段落中部的关键信息。图的做法是把结构化的'知识'放在外部图数据库里,检索时只取最相关的子图,不靠文本位置定重要性,而是靠关系。这样既省了 token,又避免了位置导致的遗漏。
不过,要说 GraphRAG 最打动企业的,可能还是可解释性。在金融、医疗、法律这些行业,你不能只给一个答案,还得说清楚'为什么是这个答案'。传统 RAG 常常就是一个黑箱,你只能猜测模型参考了哪些片段。但图检索能给出清晰的推理路径:结果来自哪些实体,它们之间是哪些关系起作用,每一步探查都有据可查。这对合规和决策审计来说,价值太大了。
当然,整个转向加速跟模型本身也有关。2026 年,以推理为核心的模型成了 RAG 的新标配,像 DeepSeek 的后续版本,对逻辑和思维链的支持已经很成熟。这类模型天然适合跟图谱协作——它们擅长的不是背课文,而是理解结构、生成查询、合成关系。结果是,GraphRAG 不再只是一个论文里的概念,而是一个可以落地的架构。
到这里,需要提一下 DeepSeek 在图谱构建环节的实际用处。企业数据大部分是非结构化的,合同、邮件、报告,要从这些材料里抽取出实体和关系,是构建知识图谱的第一步。这一步如果靠传统的 NER 模型,经常会漏掉一些领域特有的词,或者识别不了复杂的语义。DeepSeek-V3 在这方面的表现很实在,尤其对少见实体和领域特定关系的抽取,准确率高出不少。这直接决定了后面知识图谱的质量。
另一个好处是 schema 层面。以前构建知识图谱,你得先定义好实体类型和关系类型,然后数据只能往这个框里填。可企业业务是变的,新实体、新关系会不断冒出来。DeepSeek 的零样本和少样本能力让 schema 可以'随数据生长'。你不用预先训练一个抽取器,只需要给出几个示例甚至直接让它根据上下文去判断,它就能把新的关系抓出来。这种灵活性对长期维护来说非常关键,也减少了人工标注和重复调试的成本。

