【论文阅读】Cog-RAG: Cognitive-Inspired Dual-Hypergraph with Theme Alignment RAG

【论文阅读】Cog-RAG: Cognitive-Inspired Dual-Hypergraph with Theme Alignment RAG

代码地址:GitHub - haoohu/Cog-RAG: Cog-RAG: Cognitive-Inspired Dual-Hypergraph with Theme Alignment Retrieval-Augmented Generation


摘要

检索增强生成(Retrieval-Augmented Generation,RAG)通过引入外部知识来抑制幻觉,从而提升大语言模型(LLMs)的响应质量和领域特定性能。近期研究将图结构引入 RAG,以增强对实体之间语义关系的建模能力。然而,这类方法主要关注低阶的实体两两关系,限制了对多实体之间高阶关联的刻画。为弥补这一不足,超图增强方法通过超边对多实体交互进行建模,但通常仅局限于跨文本块的实体级表示,忽视了不同文本块之间全局主题结构的组织与对齐。

受人类推理自上而下认知过程的启发,本文提出了一种主题对齐的双超图 RAG 框架(Cog-RAG):其中,主题超图用于捕获跨文本块的主题结构,实体超图用于建模高阶语义关系。此外,设计了一种认知启发的两阶段检索策略:首先在主题超图中激活与查询相关的主题内容,然后引导在实体超图中的细粒度召回与信息扩散,实现从全局主题到局部细节的语义对齐与一致生成。大量实验结果表明,Cog-RAG 显著优于现有的最先进基线方法。

引言

检索增强生成(Retrieval-Augmented Generation,RAG)近年来受到越来越多关注,用于提升大语言模型(LLMs)在知识密集型任务中的表现(Lewis 等,2020;Gao 等,2023;Li 等,2024)。它通过引入外部知识来抑制 LLM 的幻觉,从而增强响应的质量和可靠性(Ayala & Bechard,2024;Xia 等,2025)。此外,RAG 可与私有或领域特定知识库集成,从而提高模型在垂直领域的适应性。凭借这些优势,RAG 已成为问答、文档理解和智能助手等应用中的核心组成部分(Fan 等,2024;Dong 等,2025)。

尽管 RAG 在提升 LLM 响应质量方面具有显著潜力,但当前方法大多依赖扁平化的基于文本块的检索,即通过向量相似度将查询匹配到文档块(Asai 等,2023;Yang 等,2024)。然而,这种方法难以捕捉跨文本块的依赖关系和语义层次,导致检索内容零散、关联性弱,从而削弱模型对整体知识的结构化理解。

为了解决这一问题,近期研究尝试将图结构引入 RAG 框架,以构建覆盖语料库的知识图,捕捉实体间的结构化语义关系(Peng 等,2024;Zhang 等,2025;Wang 等,2025)。例如,GraphRAG(Edge 等,2024)和 LightRAG(Guo 等,2024)利用图结构增强实体级索引与检索,显式捕捉语义关系以改进信息组织;Hyper-RAG(Feng 等,2025a)则使用超图建模多实体间的复杂关系。然而,这些方法主要集中于实体级结构建模,缺乏统一的主题组织和语义驱动的推理,因此难以支持从宏观理解到微观细节的信息层次整合。

值得注意的是,人类在处理复杂任务时倾向于采用自上而下的信息处理路径(Cheng 等,2025;Gutierrez 等,2024)。他们通常首先识别问题的核心主题,构建全局语义框架,然后在此基础上回忆并整合相关细节,以形成连贯且结构化的响应。这种“主题驱动、细节回忆”的认知模式体现了人类信息处理中的固有层次组织与语义一致性。

受此认知启发,本文提出了一种主题对齐的双超图 RAG 框架(Cog-RAG)。图 1 展示了其在知识建模方面与其他方法的差异。方法利用双超图结构对全局主题结构和细粒度高阶语义关系进行建模。同时,引入认知启发的两阶段检索策略,模拟人类自上而下的信息理解过程,从而增强生成响应的语义一致性和结构表现力。

主要贡献总结如下:

  • 提出 Cog-RAG:模拟人类自上而下的信息处理路径,实现从宏观语义理解到微观信息整合的分层生成建模。
  • 设计双超图语义索引方案:分别建模跨文本块的全局主题结构与文本块内的细粒度高阶语义关系,克服以往图增强 RAG 模型仅关注两两关系、缺乏统一主题组织的局限。
  • 开发认知启发的两阶段检索策略:首先在主题超图中激活相关上下文,然后在实体超图中触发细节回忆与信息扩散。这种“主题驱动、细节回忆”的流程实现跨粒度语义对齐,显著提升响应的连贯性和质量。

方法

如图 2 所示,Cog-RAG 由两个主要组件构成:双超图索引认知启发的两阶段检索。构建了具有互补语义粒度的双超图结构:其中,主题超图用于捕获文本块之间的语义主题关联(如故事线、叙事大纲与摘要),提供全局语义主题组织;实体超图用于建模实体(如人物、概念与事件)之间细粒度的高阶关系,支撑局部语义关联。在检索阶段,Cog-RAG 模拟人类“自上而下”的推理模式,首先在主题超图中激活相关主题,作为全局语义锚点;在这些锚点的引导下,再从实体超图中检索相关实体及其关系信息。最终,语言模型基于“主题驱动、细节回忆”的知识证据生成响应。


双超图索引(Dual-Hypergraph Indexing)

为更有效地建模语料中多实体之间复杂的高阶关联,并避免传统图结构带来的信息损失,本文引入超图进行建模。其一般形式化定义如下:

M=(LLM,R(q,D={V,Elow,Ehigh})),(3)

其中,超边用于表示关系;Elow表示低阶的实体两两关系,Ehigh表示超越两两关系的多实体高阶关联。


主题感知超图索引(Theme-Aware Hypergraph Index)

主题超图旨在建模文档的语义故事线结构,构建叙事大纲,为后续的细节检索提供认知引导。

给定语料库 D(如书籍、报告或操作手册),先采用具有部分重叠的固定长度滑动窗口将其划分为一组文本块,以保持语义完整性,表示为:

D={D1,D2,…,DN},(4)

其中 Di表示第 i 个文档块,作为后续分析的基本单元。

随后,利用大语言模型对每个文本块进行语义解析,自动提取其潜在主题及相关关键实体,从而构建主题超图。具体而言,首先使用预定义的主题级抽取提示词

,引导 LLM 对每个文本块 Di 进行语义解析并输出对应主题;然后进一步抽取与该主题相关的关键实体。其计算过程如下:

​​​​​​​​​​​​​​

基于提取的主题与实体,构建主题超图 Gtheme​,表示为:

Gtheme={Vkey,Etheme},(6)

其中,每条超边 Etheme 表示一个文本块的叙事主题,而顶点 Vkey 为对应的关键实体。


细粒度实体超图索引(Fine-Grained Entity Hypergraph Index)

在构建主题超图并获得跨文本块的全局主题结构之后,为进一步捕获细粒度的多实体关系,在每个文本块内部构建实体超图,用于建模实体之间的高阶关系,支撑后续的细粒度检索。

对于每个文本块 DiD,首先利用 LLM 抽取实体(如人物、事件、组织等)及其描述,作为细粒度实体超图的顶点集合。随后,根据实体之间的语义关系构建两类超边:低阶超边 Elow​ 用于刻画基本的实体两两关系,高阶超边 Ehigh​ 用于建模多实体之间更复杂的语义关联,如事件中的共现关系或因果联系。其抽取过程表示如下:

​​​​​​​

其中,

为实体抽取提示词,P^{ext}_{low} 与 P^{ext}_{high}分别用于从已抽取实体中获取成对关系与群组关系。

最终,将所有抽取的实体及其低阶、高阶关系组织为一个细粒度实体超图 Gentity,并存储于超图数据库中:

Gentity={V,Elow,Ehigh}.(8)

认知启发的两阶段检索(Cognitive-Inspired Two-Stage Retrieval)

受人类记忆检索中自上而下信息处理模式的启发,本文设计了一种认知启发的两阶段检索策略。具体而言,该策略首先在主题超图中识别与查询相关的主题线索(theme threads),随后以这些线索作为提示,引导从实体超图中检索细粒度信息。

对于给定的用户查询 q,首先从中抽取主题关键词(即概括性的概念或主题),表示为:

Xtheme=LLM(Pkeyword(q)),(9)

其中 X∗={x1,x2,…},Pkeyword为从查询中抽取主题关键词的提示词。


主题感知超图检索(Theme-Aware Hypergraph Retrieval)

随后,在超图数据库上执行结构化检索。需要注意的是,主题关键词通常反映多个实体之间的抽象语义关系,因此主要用于检索相关的超边。

在第一阶段检索中,利用抽取的主题关键词在主题超图中进行语义匹配,选取相关度最高的 top-k 条主题超边:

​​​​​​​​​​​​

其中 Erel表示从向量数据库中检索得到的相关超边集合。随后,在超图数据库上执行扩散过程,检索这些超边的邻接顶点,以为主题提供更丰富的上下文信息:

其中 N(⋅)表示从超图中获取相应邻居的函数,Vdif 为扩散得到的顶点集合。

接着,将 Erel与 Vdif 及其对应的文本上下文一并输入至 LLM,作为先验知识生成初始的主题感知回答:

Atheme=LLM(q,Erel,Vdif,Crele,Cdifv),(12)

其中 Atheme表示基于主题超图 Gtheme检索后对查询 q 的初步回答,C∗为对应的上下文信息。


主题对齐的实体超图检索(Theme-Aligned Entity Hypergraph Retrieval)

在完成基于主题的初始检索后,进一步在实体超图中执行细粒度信息检索。在已检索主题的引导下,该阶段补充实体级语义细节,实现局部信息与全局主题之间的有效对齐。

基于主题阶段生成的响应,进一步从查询 q 中抽取与主题对齐的实体关键词(即具体实体或细节信息),表示为:

Xentity=LLM(Palign(q,Atheme)),(13)

其中 Palign为用于抽取与主题对齐的实体关键词的提示词。Xentity​ 主要描述具体个体层面的信息,因此用于与实体超图中的顶点进行匹配。两类关键词(主题与实体)与超图结构的自然结合,提升了检索的针对性和结构一致性。

不同于主题检索阶段主要针对超边进行检索,该阶段侧重于依据实体关键词在实体超图中检索相关度最高的 top-k 个顶点,从而实现细粒度语义补充与结构化对齐:

Vrel={R(xi,Ventity)∣xi∈Xentity},(14)

其中 Vrel表示检索得到的相关实体集合。随后,在实体超图上执行结构扩散过程:

Edif={N(vi,Gentity)∣vi∈Vrel}.(15)

最后,将检索得到的实体集合 Vrel、扩散得到的超边 Edif及其对应上下文,与前一阶段的主题信息 Atheme进行整合,构成结构化输入,送入 LLM 生成查询 qqq 的最终回答 A,从而实现由主题引导到细节支撑的完整语义生成过程:

A=LLM(q,Atheme,Vrel,Edif,Crelv,Cdife).(16)

实验


后面会详细的看一下实验的写法

Read more

从零到一:如何用STC89C52打造智能家居温湿度控制中枢

从零到一:如何用STC89C52打造智能家居温湿度控制中枢 在智能家居技术蓬勃发展的今天,温湿度控制已成为提升生活品质的重要环节。无论是红酒储藏室的恒温恒湿需求,还是花卉温室的环境调控,一个稳定可靠的温湿度控制系统都能发挥关键作用。本文将带领读者从硬件选型到软件编程,逐步构建基于STC89C52单片机的智能温湿度控制中枢,实现环境参数的精准监测与自动调节。 1. 系统架构设计与硬件选型 1.1 核心控制器选择 STC89C52单片机作为经典8051内核的增强型版本,以其高性价比和稳定性能成为本系统的理想选择。这款8位微控制器具备: * 8KB Flash程序存储器 * 512字节RAM * 32个通用I/O口 * 3个定时器/计数器 * 全双工UART串口 相比STM32等32位处理器,STC89C52虽然在性能上稍逊,但对于温湿度控制这类中低复杂度应用完全够用,且具有更低的功耗和更简单的开发环境。 1.2 传感器模块选型 DHT11数字温湿度传感器是本系统的感知核心,其特点包括: 参数规格温度测量范围0-50℃ ±2℃湿度测量范围20-90%RH ±

By Ne0inhk

低代码AI平台:Coze与Dify深度对比

低代码 AI 平台(如 Coze 和 Dify)旨在降低 AI 应用开发门槛,使开发者甚至非技术人员也能快速构建基于大模型(LLM)的智能应用。它们通常提供可视化编排、插件集成、知识库管理、对话流程设计等功能。在实际项目中,常常需要将这些平台与现有系统集成,或进行二次开发以满足特定业务需求。 以下从 集成方式 与 二次开发能力 两个维度,分别介绍 Coze 和 Dify 的特点及实践建议: 一、Coze(字节跳动) 1. 集成方式 * Webhook / API 调用 Coze 支持通过 Bot ID 和 API Token 调用其提供的 RESTful API,可将 Bot

By Ne0inhk

EgoPoseFormer v2:解决 AR/VR 场景中的第一视角人体动捕问题

目录 一、前言 二、EgoPoseFormer v2 核心内容总结 1. 研究背景与挑战 2. EPFv2 的核心创新 3. 实验结果 4. 应用价值 三、DeepSeek是不是发布过关于图像识别顺序的因果时间注意力机制?         3.1 它们各自是怎么实现的,技术上有没有底层的联系和区别? 1.DeepSeek的“视觉因果流” (空间逻辑重排) 2.Meta EPFv2的“因果时间注意力” (时间逻辑依赖) 3.底层联系与核心区别 4.总结 四、EPFv2和DeepSeek OCR2和SAM2跟踪的区别和联系         4.1 EPFv2和DeepSeek OCR2和SAM2跟踪的区别和联系是什么?         4.2 技术上的相似性 🧩 不同的应用方式:从“基础模块”到“特定智能”

By Ne0inhk
TWIST2——全身VR遥操控制:采集人形全身数据后,可训练视觉base的自主策略(基于视觉观测预测全身关节位置)

TWIST2——全身VR遥操控制:采集人形全身数据后,可训练视觉base的自主策略(基于视觉观测预测全身关节位置)

前言 我司内部在让机器人做一些行走-操作任务时,不可避免的需要全身遥操机器人采集一些任务数据,而对于全身摇操控制,目前看起来效果比较好的,并不多 * 之前有个CLONE(之前本博客内也解读过),但他们尚未完全开源 * 于此,便关注到了本文要解读的TWIST2,其核心创新是:无动捕下的全身控制 PS,如果你也在做loco-mani相关的工作,欢迎私我你的一两句简介,邀你加入『七月:人形loco-mani(行走-操作)』交流群 第一部分 TWIST2:可扩展、可移植且全面的人形数据采集系统 1.1 引言与相关工作 1.1.1 引言 如TWIST2原论文所说,现有的人形机器人远程操作系统主要分为三大类: 全身控制,直接跟踪人体姿态,包括手臂、躯干和腿部在内的所有关节以统一方式进行控制(如 HumanPlus [12],TWIST [1] ———— TWIST的介绍详见此文《TWIST——基于动捕的全身遥操模仿学习:教师策略RL训练,学生策略结合RL和BC联合优化(可训练搬箱子)》 部分全身控制,

By Ne0inhk