2024 年 RAG 技术重大突破：全年革新与里程碑综述

2024.01

GraphReader【图解专家】

图解专家：像个善于制作思维导图的导师，将冗长的文本转化为清晰的知识网络，让 AI 能够像沿着地图探索一样，轻松找到答案需要的各个关键点，有效克服了处理长文本时的"迷路"问题。

发表时间：2024.01.20

论文名称：GraphReader: Building Graph-based Agent to Enhance Long-Context Abilities of Large Language Models

一、论文动机

LLMs 面临的一个主要限制是上下文窗口大小和内存使用的局限性，这使得它们难以有效处理长上下文。为了解决这一问题，研究人员探索了多种方法，包括改进模型结构、引入检索增强机制以及利用代理进行复杂推理。然而，这些方法各自存在一定的局限性，如训练成本增加、忽略细节信息或决策机制不够灵活。

二、论文思路

目标：通过构建图结构并采用自主代理探索策略，GraphReader 能够在有限的上下文窗口内捕捉长距离依赖关系，从而实现对冗长文档的有效处理。

GraphReader 的操作分为三个阶段：

图构建：文档被划分为多个块，每个块被总结为原子事实，并从中抽取关键元素形成节点；节点之间根据共享的关键元素建立链接。

图探索：智能体按照合理规划选择起始节点，并通过检查相邻节点来遍历整个图结构；在此过程中，智能体会记录支持性事实以备后续分析。

答案推理：编译来自不同智能体的笔记，使用思维链推理生成针对给定问题的答案。

三、论文创新点

将长文本分割成离散块，并提取关键元素和原子事实；

使用这些组件构建一个能够反映文本内部关系的图结构；

智能体根据预定义函数和逐步理性计划，在图中导航并收集必要信息；

整个过程包括做笔记和反思，确保最终答案的准确性和完整性。

四、结论

GraphReader 通过将长文本组织成图结构并利用智能体探索，成功克服了传统 LLMs 处理长文本时的障碍，提供了更为有效的解决方案。这项研究为长上下文处理树立了新的标杆，并为未来的进一步发展奠定了坚实的基础。

MM-RAG【多面手】

多面手：就像一个能同时精通视觉、听觉和语言的全能选手，不仅能理解不同形式的信息，还能在它们之间自如切换和关联。通过对各种信息的综合理解，它能在推荐、助手、媒体等多个领域提供更智能、更自然的服务。

时间：2024.01.22

一、论文动机

多模态理解：通过理解图像、音频、视频和文本等不同模态，AI 系统可以解决以前难以解决的问题。

对比学习：用于训练高质量的多模态嵌入，通过比较正负样本对来学习跨模态的语义表示。例如，CLIP 模型通过对比学习在图像和文本之间建立了强大的关联。

二、论文思路

定义：MM-RAG 是一种将大型语言模型（如 GPT-3）与使用对比学习嵌入的多模态检索器相结合的技术。

多模态嵌入空间：将不同格式的数据（图片、音频、视频、文本）编码到同一语义嵌入空间中，使得可以通过嵌入相似性进行跨模态搜索。在文本生成过程中，模型会将检索到的不同格式的数据（图片、音频、视频、文本）作为额外上下文，指导其完成更具体且连贯的输出。

举个栗子：用户可以通过一张图片检索相关的文本描述，或者通过文本查询找到相关的图片、音频或视频内容。

为了使 MM-RAG 能够在实际应用中大规模部署，文章提出了一个包含三个主要组件的解决方案：

对比训练多模态模型：例如 CLIP，用于将不同模态的数据编码到共享的向量空间中。

高效向量数据库：例如 Weaviate，它能够处理数十亿个嵌入并执行快速的向量相似性搜索。

用户查询接口：允许用户提交查询，并即时从数据库中检索跨模态的相关结果。

这套系统不仅支持高效的多模态搜索，还为构建大规模的 MM-RAG 生产环境提供了基础架构。

三、论文总结

MM-RAG 代表了语言生成模型的一个重要进步，它通过整合来自多种模态的信息，提高了生成内容的质量。借助对比学习和向量数据库的力量，这项技术正逐步从实验室走向实际应用，为用户提供更为丰富和准确的语言交互体验。随着技术的不断发展，我们正迎来一个多模态智能的新时代。

CRAG【自我校正】

自我校正：像个经验丰富的编辑，先用简单快速的方式筛选初步资料，再通过网络搜索扩充信息，最后通过拆解重组的方式，确保最终呈现的内容既准确又可靠。就像是给 RAG 装上了一个质量控制系统，让它产出的内容更值得信赖。

发表时间：2024.01.29

论文名称：Corrective Retrieval Augmented Generation

论文地址：https://arxiv.org/abs/2401.15884

Github 地址：https://github.com/HuskyInSalt/CRAG

一、论文动机

传统 RAG 的局限性：传统的检索增强生成（RAG）方法在信息检索过程中存在局限性，如缺乏对检索文档与问题相关性的评估，导致生成内容可能不准确或包含无关信息.

二、论文思路

检索评估器：CRAG 使用一个轻量级的 T5-large 模型作为检索评估器，评估检索到的文档与问题之间的相关性，并给出三种结果：正确、错误、模棱两可。

正确：使用知识细化算法对检索到的信息进行处理和精炼。

错误：利用网络搜索引擎获取更相关的信息。

模棱两可：结合使用知识细化算法和网络搜索引擎，获取更多信息来完善答案。

知识精炼算法：先将文档细分为细小的知识单元，利用检索评估器为每个知识单元计算相关性评分，筛除评分较低的单元，剩下的单元重新组合构建成完整的内部知识体系。

三、优势与不足

优势：CRAG 通过自我校正检索结果，增强了生成文本的鲁棒性，模型结构轻量级，推理速度快。

不足：需要根据具体问题和需求调整相关性分数的阈值，以在信息检索的准确性和全面性之间取得平衡。

总结

文章强调了 CRAG 在提升信息检索与生成质量方面的潜力，并展示了其在自然语言处理领域的理论和实践意义，为提升语言模型在复杂知识密集型任务中的表现提供了新的思路和方法。

RAPTOR【分层归纳】

分层归纳：像个善于组织的图书管理员，将文档内容自下而上地整理成树状结构，让信息检索能在不同层级间灵活穿梭，既能看到整体概要，又能深入细节。

发表时间：2024.01.31

论文名称：RAPTOR: Recursive Abstractive Processing for Tree-Organized Retrieval

论文地址：https://arxiv.org/abs/2401.18059

Github 项目：https://github.com/parthsarthi03/raptor

一、论文动机

传统的 RAG 方法通常仅从检索语料库中提取短的连续文本块，这限制了模型对整个文档上下文的整体理解能力。

二、论文思路

RAPTOR（Recursive Abstractive Processing for Tree-Organized Retrieval）旨在通过递归处理、聚类和总结文本块，构建具有不同抽象级别的树形结构，从而改进长文档信息的整合与检索效率。

2.1 RAPTOR 检索树的构建过程

文本切片：首先对文本进行合理的切片处理，选择合适的切片算法。

递归聚类与总结：根据语义 embedding 递归地对文本块进行聚类，并生成这些聚类的文本摘要。采用软聚类方法，允许文本块跨多个聚类，并使用高斯混合模型（GMMs）和 UMAP 技术进行降维，以优化文本聚类效果。

树形模型构建：通过递归的向量分析，精准地对文本块进行聚类，并提炼出这些聚类的核心摘要，自下而上地构建出一个结构化的树形模型。相近的节点形成兄弟关系，父节点承载整个集群的概要性文本信息。

2.2 RAPTOR 的检索过程

深度检索树：从树的根级别开始，根据与查询向量的余弦相似度逐层检索 top-k 节点，直到达到叶节点，最后将所有选定节点的文本连接起来形成检索到的上下文。

广度检索树：将整个树压缩成单一层，然后根据与查询向量的余弦相似度评估所有层的节点，直到达到设定阈值。

三、论文创新点

树状结构的构建

递归嵌入与聚类：RAPTOR 通过递归的方式对文本块进行嵌入和聚类，生成不同层次的文本摘要，构建出具有不同总结级别的树形结构。这种递归嵌入与聚类的方法使得模型能够逐步细化文本信息的粒度，捕捉到不同层次上的关键信息，为后续的文本分析和应用奠定了坚实的基础。

软聚类与降维技术：采用软聚类方法，允许文本块跨多个聚类，基于高斯混合模型（GMMs）和 UMAP 技术进行降维。这种软聚类与降维技术的结合，能够更好地捕捉文本数据的复杂结构和关系，优化文本聚类效果，提高模型对文本信息的理解和处理能力。

检索过程的优化

深度与广度检索树：提出了基于深度检索树（树遍历）和广度检索树（折叠树）的两种检索方式。深度检索树从树的根级别开始逐层检索，广度检索树将整个树压缩成单一层进行评估。这两种检索方式为不同场景下的信息检索提供了灵活的选择，能够根据具体需求和查询向量的相似度，高效地检索到相关的信息。

多级信息整合：在推理时，RAPTOR 模型能够从构建的树中整合不同抽象级别的长文档中的信息。这种多级信息整合的方式，使得模型在生成答案时能够综合考虑不同层次上的文本内容，提高生成结果的准确性和可靠性。

性能提升

显著提高准确度：与传统的检索增强型语言模型相比，RAPTOR 在性能和绝对准确度上提高了 20%。这一显著的性能提升，证明了 RAPTOR 模型在信息检索与生成任务中的有效性，展示了其在处理长文本和复杂文档方面的优势。

四、论文总结

RAPTOR 模型通过其独特的树状结构构建、优化的检索过程以及显著的性能提升，为检索增强生成领域带来了新的创新和突破，为处理长文本和复杂文档提供了更高效、更准确的方法。

2024.02

T-RAG【私人顾问】

私人顾问：像个熟悉组织架构的内部顾问，善于利用树状结构组织信息，在保护隐私的同时，高效且经济地提供本地化服务。

发表时间：2024.02.12

论文名称：T-RAG: Lessons from the LLM Trenches

论文地址：https://arxiv.org/abs/2402.07483

一、论文动机

数据隐私与安全性：在处理私营企业文档的问答任务时，数据的安全性和稳健性至关重要。由于文档的敏感性，使用公共 API 上的专有 LLM 模型存在数据泄露的风险，因此需要使用可以在本地部署的开源模型。

现有挑战：有限的计算资源和较小的训练数据集也带来了挑战，同时需要确保对用户查询的可靠和准确的响应，这增加了部署强大应用程序的复杂性。

二、论文思路

架构设计：T-RAG 将 RAG 架构与经过微调的开源 LLM（如 Llama-2 7B 模型）相结合，使用源自组织文档的指令数据集进行训练，以生成响应。

实体树与向量数据库：T-RAG 结合了实体树和向量数据库进行上下文检索。实体树存储有关组织实体及其层次结构的信息，而向量数据库用于搜索相关文档块。

工作流程：

解析用户查询，识别与组织内实体名称相对应的关键字。

从实体树中提取相关实体的详细信息，并将其转换为文本陈述，提供有关实体及其在组织层次结构中的位置的信息。

将这些信息与从向量数据库检索的文档块合并，构建上下文。

经过微调的 LLM 根据提供的上下文生成响应。

三、论文创新点

实体树的利用：通过实体树增强上下文检索，使得模型能够获得有关实体及其在组织内层次定位的相关信息，从而提高回答的准确性和相关性。

数据隐私保护：使用本地部署的开源模型，避免了数据泄露的风险，同时解决了推理延迟、令牌使用成本以及区域和地理可用性问题。

评估指标：引入了 Correct-Verbose 评估指标，用于评估生成的响应质量，不仅考虑答案的正确性，还考虑包含超出原始问题范围的其他相关信息。

四、论文总结

T-RAG（树状检索增强生成）结合 RAG 与微调的开源 LLM，使用树结构来表示组织内的实体层次结构增强上下文，利用本地托管的开源模型来解决数据隐私问题，同时解决推理延迟、令牌使用成本以及区域和地理可用性问题。

2024.03

RAT【思考者】

思考者：像个善于反思的导师，不是一次性得出结论，而是先有初步想法，然后利用检索到的相关信息，不断审视和完善每一步推理过程，让思维链条更加严密可靠。

发表时间：2024.03.08

论文名称：RAT: Retrieval Augmented Thoughts Elicit Context-Aware Reasoning in Long-Horizon Generation

论文地址：https://arxiv.org/abs/2403.05313

Github 项目：https://github.com/CraftJarvis/RAT

一、论文动机

幻觉问题：在生成式 AI 应用中，语言模型常常会产生幻觉，即生成与事实不符的内容，影响输出的准确性。

效率与准确性的平衡：应用开发者需要在效率和准确性之间找到平衡点，RAT 提供了一种解决方法，能够在不牺牲太多效率的情况下提高准确性。

二、论文思路

结合 CoT 和 RAG：RAT 是检索增强型思考的简称，通过结合思维链提示和检索增强生成，解决长视野推理和生成任务。

工作流程：

第一步：由大型语言模型（LLM）生成初始的 Zero-Shot 思维链提示，将每个中间思考步骤作为查询进行信息检索，根据检索到的信息修正或细化 CoT 步骤。

第二步：使用修改后的 CoT 步骤和检索到的上下文生成最终响应或解决方案，提供全面且事实上准确的答案。

逐步推理：RAT 是一种渐进的方法，LLM 会根据 CoT 逐步产生响应，类似于人类的推理过程。

三、论文创新点

Long-Horizon 推理：RAT 在复杂的预测建模和规划算法中表现出色，能够模拟和预测不同行动方案在未来较长时期内的后果，处理不确定性并适应变化。

任务表现：在挑战性代码生成、数学推理、任务规划以及创意写作等方面，RAT 均取得了显著的成果，超过了传统的 CoT 提示、RAG 以及其他基线方法。

优势：作为一种 Zero-Shot 提示方法，RAT 能够在不进行额外训练的情况下提高生成内容的准确性和可靠性，减少幻觉现象。

四、论文总结

RAT（Retrieval-Augmented Thoughts）通过结合思维链提示和检索增强生成，提供了一种有效的方法来解决生成式 AI 中的幻觉问题，提高输出内容的准确性和可靠性。

RAFT【开卷高手】

开卷高手：像个优秀的考生，不仅会找对参考资料，还能准确引用关键内容，并清晰地解释推理过程，让答案既有据可循又合情合理。

发表时间：2024.03.15

论文名称：Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity

论文链接：https://arxiv.org/abs/2403.14403

Github 项目：https://github.com/starsuzi/Adaptive-RAG

一、论文动机

领域适应挑战：大语言模型在特定领域应用时，如何有效融入新信息是一个挑战。传统的 RAG 方法允许模型在生成答案时参考文档，但未能充分利用固定领域设置下的学习机会；而基于微调的方法可以学习文档中的普遍模式，但未能充分利用测试时的文档信息。

RAFT 的目标：结合 RAG 和微调的优势，提出一种新的训练策略，使模型在特定领域中更好地适应和生成准确的答案。

二、论文思路

核心思想：在训练过程中引入干扰文档，以提高模型在面对无关信息时的鲁棒性。模型不仅要学会从黄金文档中提取相关信息，还要学会忽略干扰文档。

思维链式响应：训练时采用思维链式响应的方式，即模型在生成答案时不仅要引用相关文档中的正确序列，还要逐步展示其推理过程，提高模型的理解能力和解释性。

数据准备与训练：构建一个包含问题、检索到的文档和正确答案的数据集，每条记录包含一个问题、一组检索到的文档（包括黄金文档和干扰文档）以及正确的答案。使用该数据集对模型进行微调。

三、实验设计与结果

数据集：使用 PubMed（医学领域）、HotpotQA（多跳问答任务）和 Gorilla（API 文档）数据集进行实验。

实验设置：设置不同的训练条件，包括不同数量的干扰文档和黄金文档，研究模型在不同训练条件下的表现。

结果分析：实验结果显示，使用干扰文档进行训练的模型在所有数据集上都表现出更好的性能，尤其是在 PubMed、HotpotQA 和 Gorilla 数据集上均表现出色，证明了 RAFT 方法的有效性。

四、论文创新点

模型鲁棒性提升：通过引入干扰文档，RAFT 有效提升了模型在面对无关信息时的鲁棒性，使模型在测试时表现出更强的适应能力。

思维链式响应的作用：思维链式响应在训练过程中起到了关键作用，提高了模型的理解能力和解释性，尤其在复杂任务中表现更为出色。

五、论文总结

RAFT 旨在提高模型在特定领域内的'开卷'环境中回答问题的能力，通过训练模型忽略无关文档，并逐字引用相关文档中的正确序列来回答问题，结合思维链式响应，显著提升了模型的推理能力。

Adaptive-RAG【因材施教】

因材施教：面对不同难度的问题，它会智能地选择最合适的解答方式。简单问题直接回答，复杂问题则会查阅更多资料或分步骤推理，就像一个经验丰富的老师，懂得根据学生的具体问题调整教学方法。

发表时间：2024.03.21

论文名称：Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity

论文地址：https://arxiv.org/abs/2403.14403

Github 项目：https://github.com/starsuzi/Adaptive-RAG

一、论文动机

检索增强语言模型的局限性：现有的检索增强语言模型（LLMs）在处理不同复杂度的查询时存在局限性。简单查询可能不需要复杂的检索过程，而复杂查询则需要多步推理和信息整合。

自适应策略的需求：为了提高问答系统的效率和准确性，需要一种能够根据查询复杂性动态调整检索策略的方法。

二、论文思路

核心思想：使用一个小模型作为分类器，预测查询的复杂度，并根据预测结果选择合适的检索增强策略。

查询复杂度评估：分类器将查询分为三类：简单查询（A）、中等复杂度查询（B）和复杂查询（C）。

自适应策略：

简单查询：使用非检索方法直接生成答案。

中等复杂度查询：使用单步检索方法。

复杂查询：使用多步检索方法。

训练策略：自动构建训练数据集，通过不同检索增强策略的结果来确定查询的复杂度标签。例如，如果非检索策略能正确回答，则将查询标记为简单。此外，利用数据集的固有偏差来补充标签。

三、实验设计与结果

数据集：使用多个公开的单步和多步问答数据集，如 SQuAD v1.1、Natural Questions、TriviaQA 等。

模型比较：与非检索、单步检索、多步检索以及现有的自适应检索方法（如 Self-RAG）进行比较。

评估指标：使用 F1、EM、Accuracy 等指标评估任务性能，同时考虑检索和生成步骤数、每个查询的平均回答时间等效率指标。

结果分析：实验结果表明，Adaptive-RAG 在有效性和效率上均优于现有的方法，特别是在处理复杂查询时，能够更有效地利用资源，提高答案的准确性。

四、论文创新点

自适应问答框架：

动态策略选择：提出了一种自适应的问答框架（Adaptive-RAG），能够根据查询的复杂度动态选择最合适的检索增强策略。这种动态选择机制使得系统能够灵活地应对不同复杂度的查询，而不是采用一种固定的处理方式。

平衡效率与准确性：通过自适应地选择策略，能够在保持高准确性的同时提高系统的效率。对于简单查询，避免不必要的复杂处理；对于复杂查询，则提供足够的计算资源以确保准确回答。

查询复杂度分类器：

自动标注训练数据：设计了一个分类器来预测查询的复杂度，并通过自动化的标注策略来构建训练数据集。这种方法利用模型的实际预测结果和数据集的固有偏差，无需人工标注，降低了数据准备的难度和成本。

多级复杂度识别：将查询分为三个复杂度等级（简单、中等、复杂），能够更细致地识别不同类型的查询，从而为每种查询选择更合适的处理策略。

综合策略融合：

无检索、单步检索和多步检索的融合：Adaptive-RAG 框架能够在无检索、单步检索和多步检索之间无缝切换，根据查询的复杂度选择最合适的策略。这种融合使得系统能够充分利用各种策略的优势，提高整体的问答性能。

五、论文总结

Adaptive-RAG 根据查询的复杂程度动态选择最适合的检索增强策略，从最简单到最复杂的策略中动态地为 LLM 选择最合适的策略。这个选择过程通过一个小语言模型分类器来实现，预测查询的复杂性并自动收集标签以优化选择过程。这种方法提供了一种平衡的策略，能够在迭代式和单步检索增强型 LLMs 以及无检索方法之间无缝适应，以应对一系列查询复杂度。

HippoRAG【海马体】

海马体：像人脑海马体一样，把新旧知识巧妙编织成网。不是简单地堆积信息，而是让每条新知识都找到最恰当的归属。

发表时间：2024.03.23

论文名称：HippoRAG: Neurobiologically Inspired Long-Term Memory for Large Language Models

论文地址：https://arxiv.org/abs/2405.14831

Github 项目：https://github.com/OSU-NLP-Group/HippoRAG

一、论文动机

LLMs 的局限性：尽管大型语言模型（LLMs）在信息生成方面表现出色，但它们在信息检索上存在局限性，容易生成错误或虚假信息。

举个栗子：一位网友搜索'自制披萨的奶酪容易掉下来怎么办？'，AI Overviews 回答道：'往酱汁里添加约 1/8 杯的胶水即可。'它甚至还特意强调用无毒胶水。

RAG 技术的挑战：检索增强生成（RAG）技术通过检索外部知识来增强 LLMs 的能力，但在处理复杂问题时仍存在不足，如无法有效确认信息的真实性或进行多跳推理。

二、论文思路

灵感来源：HippoRAG 的灵感来源于人脑的记忆机制，特别是海马体在记忆整合和多跳推理中的作用。该技术通过模仿人脑的三个主要记忆组件（大脑皮层、海马体和海马旁回）来增强 LLMs 的知识整合能力。

工作原理：

知识图谱（KG）：类似于大脑皮层，负责从文本中提取信息并构建知识图谱。

个性化 PageRank（PPR）算法：类似于海马体，用于在知识图谱中找到与查询最相关的部分。

检索编码器：类似于海马旁回，帮助将查询中的关键概念与知识图谱中的节点关联起来。

优势：

性能提升：在多跳问题回答任务中，HippoRAG 相较于传统 RAG 方法性能提升了 3% 到 20%。

成本效益：单步检索的成本比迭代检索方法低 10 到 30 倍，速度也快 6 到 13 倍。

新场景处理能力：能够有效处理路径发现型多跳问题，即在没有明确路径的情况下探索不同信息源以构建答案。

三、实验设计与结果

数据集：使用 MuSiQue 和 2WikiMultiHopQA 等多跳问答数据集进行测试。

基线比较：与 BM25、Contriever、GTR、ColBERTv2 等强基线方法进行比较。

评估指标：使用召回率（R@2 和 R@5）和问答性能（EM 和 F1 分数）进行评估。

结果：HippoRAG 在多跳问答任务中表现出色，显著优于现有 RAG 方法，并且在与 IRCoT 结合使用时进一步提升了性能。

四、论文创新点

模仿人脑记忆机制

海马体记忆索引理论的启发：HippoRAG 通过模仿人脑海马体和大脑皮层的协同工作机制，将知识整合和记忆检索的过程与人类的记忆机制相结合。这种设计使得模型能够更有效地进行跨段落的信息整合和推理，类似于人类在面对复杂问题时的记忆联想和信息检索能力。

单步多跳检索能力

单步实现多跳推理：HippoRAG 能够在单步检索中完成多跳推理任务，这与传统的迭代检索方法（如 IRCoT）相比，显著提高了检索效率。通过使用个性化 PageRank（PPR）算法，HippoRAG 能够在知识图谱中快速找到与查询相关的多个节点及其关联路径，从而在一次检索中完成多跳信息的整合。

知识图谱与 LLMs 的协同工作

无结构知识图谱的构建：HippoRAG 利用 LLM 将文本语料库转换为无结构的知识图谱，这种图谱能够存储大量的实体及其关系，为后续的检索和推理提供了丰富的信息基础。与传统的结构化知识图谱相比，无结构知识图谱在灵活性和扩展性方面具有优势。

知识图谱与 LLMs 的深度融合：通过将知识图谱与 LLMs 相结合，HippoRAG 不仅能够利用 LLMs 的语言理解和生成能力，还能借助知识图谱进行更有效的信息检索和整合。这种深度融合使得模型在处理复杂的知识整合任务时表现更为出色。

显著的性能提升

在多跳问答任务中的优越表现：实验结果表明，HippoRAG 在多跳问答任务中显著优于现有的 RAG 方法，性能提升了 3% 到 20%。这表明其在理解和回答复杂问题时更加准确和高效。

成本和速度的优化：与迭代检索方法相比，HippoRAG 在成本和速度上都有显著优势，单步检索的成本比迭代检索低 10 到 30 倍，速度也快 6 到 13 倍。这使得 HippoRAG 在实际应用中更具可行性，尤其是在需要快速响应的场景中。

解决复杂知识整合问题

处理路径发现型多跳问题：HippoRAG 能够有效处理路径发现型多跳问题，即在没有明确路径的情况下，通过探索不同的信息源来构建答案。这在现实生活中具有广泛的应用前景，如科学文献综述、法律案例分析等需要复杂知识整合的场景。

五、论文总结

结论：HippoRAG 通过模仿人脑记忆机制，有效地解决了 LLMs 在知识整合方面的局限性，为长期记忆在 LLMs 中的实现提供了一种有前景的解决方案。

局限性：尽管 HippoRAG 在多跳问答任务中表现出色，但其在处理更复杂场景时仍有改进空间，例如进一步优化 OpenIE 和 PPR 算法的性能，以及提高其在更大规模数据集上的可扩展性。

RAE【智能编辑】

智能编辑：像个细心的新闻编辑，不仅会深入挖掘相关事实，还能通过连环推理找出容易被忽略的关键信息，同时懂得删减冗余内容，确保最终呈现的信息既准确又精炼，避免"说得天花乱坠却不靠谱"的问题。

发表时间：2024.03.28

论文名称：Retrieval-enhanced Knowledge Editing in Language Models for Multi-Hop Question Answering

论文地址：https://arxiv.org/abs/2403.19631

Github 项目：https://github.com/sycny/RAE

一、论文动机

问题背景：LLMs 在问答任务中表现出色，但在处理多跳问题时，需要更新和整合多个知识点。现有的模型编辑方法在处理这些复杂联系时存在困难，容易生成过时或不正确的回答。

二、论文思路

核心概念：RAE 框架通过检索和编辑相结合的方法，增强 LLMs 在多跳问答中的表现。

关键组成部分：

外部知识图谱：存储编辑过的事实和未编辑的事实，为检索提供知识基础。

基于互信息的检索：通过最大化问题和检索到的子图之间的互信息，识别与问题最相关的知识子图。

冗余知识剪枝：使用编辑不确定性评估检索到的事实集，剪除冗余或不相关事实，提高编辑准确性。

上下文学习编辑：结合经过剪枝的事实集和编辑模板，通过 LLMs 的上下文学习能力生成准确答案。

编辑模板：指导 LLMs 如何结合问题和事实产生正确输出的特定提示结构。

三、实验设计与结果

实验设置：在不同大小的语言模型上进行评估，验证 RAE 在提供准确答案和更新知识方面的能力。

结果：RAE 在处理多跳问题时，相比于现有基线方法，显著提高了编辑后的模型输出的准确性。

四、论文创新点

检索增强型知识编辑框架

结合检索与编辑：传统的知识编辑方法通常依赖于直接修改模型参数或知识库，而 RAE 框架通过检索增强的方式，结合了检索和编辑的优势。它首先通过检索获取与问题相关的知识，然后对这些知识进行编辑和整合，从而更好地适应多跳问答任务的需求。

多跳问题的针对性设计：针对多跳问答任务中知识点之间复杂联系的特点，RAE 框架专门设计了检索和编辑策略。通过链式事实的识别和冗余知识的剪枝，能够更准确地捕捉和整合与问题相关的多个知识点。

基于互信息的检索方法

互信息最大化：传统的检索方法多基于简单的相似性搜索，容易遗漏相关信息。RAE 框架通过最大化问题和检索到的子图之间的互信息，能够更全面地识别与问题最相关的知识子图。这种方法利用了 LLMs 的推理能力，提高了检索的准确性和相关性。

链式事实识别：通过链式事实的识别，RAE 能够捕捉到知识点之间的逻辑关系和因果链，弥补了简单相似性搜索的不足，更好地支持多跳推理过程。

冗余知识剪枝策略

编辑不确定性评估：引入编辑不确定性来评估检索到的事实集，通过剪除冗余或不相关事实，提高了编辑的准确性和效率。这一策略有助于减少模型输出的不确定性，避免生成错误或不一致的答案。

提高编辑效率：通过剪枝策略，RAE 框架能够更高效地处理大量的检索结果，避免在不必要的信息上浪费计算资源，从而提高了整体的编辑效率。

上下文学习编辑方法

结合编辑模板：利用编辑模板指导 LLMs 如何结合问题和事实来产生正确的输出。这种特定的提示结构能够更好地引导模型进行上下文学习，生成准确且连贯的答案。

上下文学习能力的利用：充分发挥 LLMs 的上下文学习能力，通过结合经过剪枝的事实集和问题上下文，生成更加准确和符合逻辑的答案。

五、论文总结

优势：RAE 框架通过有效的检索和编辑策略，能够更好地处理多跳问答中的复杂知识联系，提高模型的回答准确性。

应用场景：适用于需要实时知识更新和复杂知识整合的问答场景。

2024.04

RAGCache【仓储员】

仓储员：像大型物流中心一样，把常用知识放在最容易取的货架上。懂得把经常用的包裹放在门口，把不常用的放在后仓，让取货效率最大化。

发表时间：2024.04.18

论文名称：RAGCache: Efficient Knowledge Caching for Retrieval-Augmented Generation

论文地址：https://arxiv.org/abs/2404.12457

GraphRAG【社区摘要】

社区摘要：先把小区居民的关系网理清楚，再给每个邻里圈做个简介。有人问路时，各个邻里圈提供线索，最后整合成最完整的答案。

发表时间：2024.04.24

论文名称：From Local to Global: A Graph RAG Approach to Query-Focused Summarization

论文地址：https://arxiv.org/abs/2404.12457

Github 项目：https://github.com/microsoft/graphrag

2024.05

R4【编排大师】

编排大师：像个排版高手，通过优化材料的顺序和呈现方式来提升输出质量，无需改动核心模型就能让内容更有条理，重点更突出。

发表时间：2024.05.04

论文名称：R4: Reinforced Retriever-Reorder-Responder for Retrieval-Augmented Large Language Models

论文地址：https://arxiv.org/abs/2405.02659

IM-RAG【自言自语】

自言自语：遇到问题时会在心里盘算"我需要查什么资料"、'这个信息够不够'，通过不断的内心对话来完善答案，这种"独白"能力像人类专家一样，能够逐步深入思考并解决复杂问题。

发表时间：2024.05.15

论文名称：IM-RAG: Multi-Round Retrieval-Augmented Generation Through Learning Inner Monologues

论文地址：https://arxiv.org/abs/2405.13021

AntGroup-GraphRAG【百家之长】

百家之长：汇集行业百家之长，擅用多种方式快速定位信息，既能提供精准检索，又能理解自然语言查询，让复杂的知识检索变得既经济又高效。

发表时间：2024.05.16

Github 地址：https://github.com/eosphoros-ai/DB-GPT

Kotaemon【乐高】

乐高：一套现成的问答积木套装，既能直接拿来用，又能自由拆装改造。用户要用就用，开发要改就改，随心所欲不失章法。

发表时间：2024.05.15

Github 地址：https://github.com/Cinnamon/kotaemon

FlashRAG【百宝箱】

百宝箱：把各路 RAG 神器打包成一个工具包，让研究者像挑选积木一样，随心所欲地搭建自己的检索模型。

发表时间：2024.05.22

论文名称：FlashRAG: A Modular Toolkit for Efficient Retrieval-Augmented Generation Research

论文地址：https://arxiv.org/abs/2405.13576

Github 项目：https://github.com/RUC-NLPIR/FlashRAG

GRAG【侦探】

侦探：不满足于表面线索，深入挖掘文本之间的关联网络，像破案一样追踪每条信息背后的真相，让答案更准确。

发表时间：2024.05.26

论文名称：GRAG: Graph Retrieval-Augmented Generation

论文地址：https://arxiv.org/abs/2405.16506

Github 项目：https://github.com/HuieL/GRAG

Camel-GraphRAG【左右开弓】

左右开弓：一只眼睛用 Mistral 扫描文本提取情报，另只眼睛用 Neo4j 编织关系网。查找时左右眼配合，既能找相似的，又能顺着线索图追踪，让搜索更全面精准。

发表时间：2024.05.27

论文名称：CAMEL: Communicative Agents for "Mind" Exploration of Large Language Model Society

论文地址：https://arxiv.org/abs/2303.17760

Github 项目：https://github.com/camel-ai/camel

G-RAG【串门神器】

串门神器：不再是单打独斗地查资料，而是给每个知识点都建立人际关系网。像个社交达人，不仅知道每个朋友的特长，还清楚谁和谁是酒肉朋友，找答案时直接顺藤摸瓜。

发表时间：2024.05.28

论文名称：Don't Forget to Connect! Improving RAG with Graph-based Reranking

论文地址：https://arxiv.org/abs/2405.18414

LLM-Graph-Builder【搬运工】

搬运工：给混乱的文字安个明白的家。不是简单地搬运，而是像个强迫症患者，把每个知识点都贴上标签，画上关系线，最后在 Neo4j 的数据库里盖起一座井井有序的知识大厦。

发表时间：2024.05.29

Github 地址：https://github.com/neo4j-labs/llm-graph-builder

2024.06

MRAG【八爪鱼】

八爪鱼：不是只长一个脑袋死磕问题，而是像章鱼一样长出多个触角，每个触角负责抓取一个角度。简单说，这就是 AI 版的"一心多用"。

发表时间：2024.06.07

论文名称：Multi-Head RAG: Solving Multi-Aspect Problems with LLMs

论文地址：https://arxiv.org/abs/2406.05085

Github 地址：https://github.com/spcl/MRAG

PlanRAG【战略家】

战略家：先制定完整作战计划，再根据规则和数据分析局势，最后做出最佳战术决策。

发表时间：2024.06.18

论文名称：PlanRAG: A Plan-then-Retrieval Augmented Generation for Generative Large Language Models as Decision Makers

论文地址：https://arxiv.org/abs/2406.12430

Github 地址：https://github.com/myeon9h/PlanRAG

FoRAG【作家】

作家：先列写作大纲构思文章框架，再逐段扩充完善内容。同时还配备了一个"编辑"，通过仔细的事实核查和修改建议，帮助完善每个细节，确保作品的质量。

发表时间：2024.06.19

论文名称：FoRAG: Factuality-optimized Retrieval Augmented Generation for Web-enhanced Long-form Question Answering

论文地址：https://arxiv.org/abs/2406.13779

Multi-Meta-RAG【元筛选器】

元筛选器：像个经验丰富的资料管理员，通过多重筛选机制，从海量信息中精准定位最相关的内容。它不只看表面，还会深入分析文档的"身份标签"（元数据），确保找到的每份资料都真正对题。

发表时间：2024.06.19

论文名称：Multi-Meta-RAG: Improving RAG for Multi-Hop Queries using Database Filtering with LLM-Extracted Metadata

论文地址：https://arxiv.org/abs/2406.13213

Github 地址：https://github.com/mxpoliakov/multi-meta-rag

2024.07

RankRAG【全能选手】

全能选手：通过一点特训就能当好"评委"和"选手"双重角色。像个天赋异禀的运动员，只需要少量指导就能在多个项目上超越专业选手，还能把看家本领都融会贯通。

发表时间：2024.07.02

论文名称：RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs

论文地址：https://arxiv.org/abs/2407.02485

GraphRAG-Local-UI【改装师】

改装师：把跑车改装成适合本地道路的实用车，加装了友好的仪表盘，让人人都能轻松驾驶。

发表时间：2024.07.14

Github 项目：https://github.com/severian42/GraphRAG-Local-UI

ThinkRAG【小秘书】

小秘书：把庞大的知识体系浓缩成口袋版，像个随身携带的小秘书，不用大型设备就能随时帮你查找解答。

发表时间：2024.07.15

Github 项目：https://github.com/wzdavid/ThinkRAG

Nano-GraphRAG【轻装上阵】

轻装上阵：像个轻装上阵的运动员，把繁复的装备都简化了，但保留了核心能力。

发表时间：2024.07.25

Github 项目：https://github.com/gusye1234/nano-graphrag

2024.08

RAGFlow-GraphRAG【导航员】

导航员：在问答的迷宫里开辟捷径，先画张地图把知识点都标好，重复的路标合并掉，还特地给地图瘦身，让问路的人不会绕远路。

发表时间：2024.08.02

Github 项目：https://github.com/infiniflow/ragflow

一、论文动机

背景：GraphRAG 由微软开源，被视为下一代 RAG，其在 RAGFlow 体系中是 RAG 2.0 的一个单元。RAG 2.0 是一个以搜索为中心的端到端优化系统，分为数据抽取、预处理、索引与检索四个阶段，其中数据抽取和预处理是重点。

GraphRAG 的重要性：知识图谱对改进 RAG 效果至关重要，它能解决简单 RAG 只能找到与提问相似结果而未必是答案的问题，尤其在总结性问题等场景下，通过知识图谱聚合内容生成总结，可更好回答问题。此外，知识图谱还能为 RAG 返回结果添加更多上下文，使 LLM 产生更有解释性的回答。

二、GraphRAG 与 HippoRAG 的对比

离线处理阶段：两者都先将用户文档送给 LLM 进行命名实体自动抽取。GraphRAG 只抽取实体，用'相关'作为实体间联系，后续用社区检测算法和 Graph Embedding（可选，采用 Node2Vec）补全关系；HippoRAG 则抽取整个三元组，之后利用现成知识图谱补全。

在线处理阶段：GraphRAG 将用户查询转成向量，找知识图谱中最接近节点，再根据节点所在社区及摘要信息返回给 LLM，同时查询原文并归并结果；HippoRAG 在查询阶段利用类似 PageRank 的随机游走算法在知识图谱上做子图遍历，确定 LLM 的上下文。两者都用到 PageRank 做子图遍历，原因是人类回忆过程和 PageRank 算法输出有相关性。

三、GraphRAG 的简化与优势

简化：GraphRAG 对知识图谱的抽象和构建做了简化，不要三元组和图抽象表达，使工程上推出标准产品可行性增加。

优势：RAGFlow 借鉴 GraphRAG 实现，在文档预处理阶段引入知识图谱构建作为可选项，服务于高级问答场景。

四、RAGFlow 对 GraphRAG 的改进

引入去重步骤：原版 GraphRAG 直接用抽取的命名实体构建知识图谱，易因同义词实体影响结构。RAGFlow 借鉴 LLM 能力去重，因 LLM 可视为超级大的知识图谱。

降低 Token 消耗：GraphRAG 工作原理需消耗大量 Token，RAGFlow 通过流程优化确保文档只提交 LLM 一次，避免无效消耗。未来还会提供类似 Triplex 的小模型解决方案降低成本。

五、论文总结

RAGFlow 借鉴了 GraphRAG 的实现，在文档预处理阶段，引入知识图谱构建作为可选项，服务于 QFS 问答场景，并引入了实体去重、Token 优化等改进。

Medical-Graph-RAG【数字医生】

数字医生：像个经验丰富的医学顾问，用图谱把复杂的医疗知识整理得清清楚楚，诊断建议不是凭空想象，而是有理有据，让医生和患者都能看明白每个诊断背后的依据。

发表时间：2024.08.08

论文名称：Medical Graph RAG: Towards Safe Medical Large Language Model via Graph Retrieval-Augmented Generation

论文地址：https://arxiv.org/abs/2408.04187

Github 地址：https://github.com/SuperMedIntel/Medical-Graph-RAG

一、论文动机

研究问题：如何在医学领域中使用基于图的 RAG 框架来提高 LLM 生成基于证据的医疗响应的能力，特别是在处理私有医疗数据时的安全性和可靠性。

研究难点：医学领域依赖庞大的知识库，这些知识难以适应 LLM 的有限上下文窗口；医学领域对术语系统的精确性和事实的确定性要求极高；验证医学响应的准确性对于非专家用户来说特别具有挑战性。

二、论文思路

三元组图谱构建：提出了一种独特的三元组图构建方法，将用户 RAG 数据与可信的医疗来源和受控词汇表连接起来，生成三元组 [RAG 数据，来源，定义] 以构建用户文档的综合图。

语义文档分块：将大医学文档分割成符合 LLM 上下文限制的数据块，采用字符分离和主题语义分区的混合方法。

实体提取：从每个块中提取实体，生成包含名称、类型和上下文的结构化输出。

三元组链接：构建仓库图（RepoGraph），将用户 RAG 文档与可信来源和专业定义连接起来。

关系链接：识别 RAG 实体之间的关系，生成简洁的关系短语，指定源和目标实体及其关系描述。

U-Retrieval 策略：提出了一种独特的 U-Retrieval 策略，结合自上而下的精确检索和自下而上的响应细化，平衡全局上下文意识和检索效率。

图标签化：使用预定义的医学标签总结每个 Meta-MedGraph，并迭代生成更抽象的标签摘要。

U-Retrieval：首先生成用户查询的标签摘要，并使用自上而下的方法检索最相关的图，然后自下而上地逐步整合更高层次的标签，直到生成最终答案。

三、实验设计与结果

实验设计

数据集：使用了多个数据集，包括 MIMIC-IV 电子健康记录数据集、MedC-K 生物医学学术论文和教科书数据集、FakeHealth 和 PubHealth 公共卫生事实验证数据集，以及一个收集的多层次健康问答数据集 DiverseHealth。

实验设置：比较了不同 RAG 方法在 6 种语言模型上的表现，包括 Llama2、Llama3、Gemini-pro 和 GPT-4。使用 Llama3-70B 构建图，文本嵌入使用 OpenAI 的 text-embedding-3-large 模型。模型比较使用 5 次响应集成进行评估。

结果与分析

多选题评估：MedGraphRAG 在健康和医学问答基准测试中显著提高了 LLM 的性能。与没有检索的基线相比，MedGraphRAG 在事实检查和医学问答基准测试中分别平均提高了近 10% 和 8%。与使用 GraphRAG 的基线相比，分别提高了约 8% 和 5%。特别是在较小的 LLMs（如 Llama2-13B 和 Llama2-70B）中，MedGraphRAG 表现出更显著的改进。

长形式生成评估：人类评估显示，MedGraphRAG 在所有指标上均获得了更高的评分。特别是在引用精度（CP）、引用召回率（CR）和可理解性（Und.）方面，MedGraphRAG 表现出显著优势，表明其响应更有可能得到准确来源的支持，并且更容易被理解和接受。

消融研究：通过消融研究验证了所提出模块的有效性。逐步添加 Med-MetaGraph、三元组图构建和 U-Retrieval 模块后，性能逐渐提高。特别是将 GraphRAG 的图构建替换为三元组图构建后，性能显著提高。

四、论文创新点

首次提出：首次提出了专门应用于医学领域的基于图检索增强生成（RAG）框架，命名为 MedGraphRAG。

独特的三元组图构建和 U 检索技术：开发了独特的三元组图构建和 U 检索方法，使 LLMs 能够高效生成基于证据的响应。

超越现有方法：在广泛的医学问答基准测试中，MedGraphRAG 的表现优于现有的标准 RAG 和 GraphRAG 模型，并在多个医学语料库上设立了新的最先进（SOTA）水平。

人类评估验证：通过人类评估验证，MedGraphRAG 能够提供更可理解和基于证据的响应，特别是在复杂医学推理方面。

全面的比较：在多个基准测试中，MedGraphRAG 显著提高了 LLMs 的性能，特别是在健康事实检查和医学问答任务中。

五、论文总结

性能提升：MedGraphRAG 通过其基于图的 RAG 框架，使用三元组图谱构建和 U-Retrieval 方法，增强了基于证据、上下文感知的响应。其在基准测试和人类评估中的强大表现表明了其确保复杂医学推理准确性的能力。

未来工作：未来的工作将集中在实时数据更新和在实际临床数据上的验证，以确保 MedGraphRAG 能够利用最新的医学数据和研究成果，并在真实世界应用场景中发挥更大的作用。

六、不足与反思

实时数据更新：未来的工作将集中在实时数据更新和在实际临床数据上的验证，以确保 MedGraphRAG 能够利用最新的医学数据和研究成果，并在真实世界应用场景中发挥更大的作用。

七、关键问题及回答

问题 1：MedGraphRAG 在图谱构建方面有哪些独特的设计，这些设计如何提高其在医学领域的应用效果？

三元组图构建：通过生成三元组 [RAG 数据，来源，定义] 来构建用户文档的综合图谱，确保生成的响应能够追溯到其来源和定义，提高了响应的可信度和可解释性。

U-Retrieval：结合自上而下的精确检索和自下而上的响应细化，平衡全局上下文意识和检索效率，使得 LLM 能够在保持高效的同时，获取全面的上下文信息，从而生成更准确和可靠的响应。

问题 2：MedGraphRAG 在实验中表现如何，与其他方法相比有哪些优势？

多选题评估：在健康和医学问答基准测试中，MedGraphRAG 显著提高了 LLM 的性能，特别是在较小的 LLMs 中表现出更显著的改进。

长形式生成评估：人类评估显示，MedGraphRAG 在所有指标上均获得了更高的评分，特别是在引用精度、引用召回率和可理解性方面表现出显著优势。

消融研究：通过消融研究验证了所提出模块的有效性，逐步添加模块后性能逐渐提高。

问题 3：MedGraphRAG 的未来工作方向是什么？

实时数据更新：未来的工作将集中在实时数据更新上，以确保 MedGraphRAG 能够利用最新的医学数据和研究成果。

实际临床数据验证：研究将在实际临床数据上进行验证，以进一步评估 MedGraphRAG 在真实世界应用场景中的性能和可靠性。

通过这些改进，MedGraphRAG 有望在医学领域发挥更大的作用，提供更高质量和更可靠的医疗响应，从而改善患者的诊疗体验。

HybridRAG【中医合方】

中医合方：就像中医讲究的"合方"，单味药不如几味药合在一起效果好。向量数据库负责快速检索，知识图谱补充关系逻辑，两者优势互补。

发表时间：2024.08.09

论文名称：HybridRAG: Integrating Knowledge Graphs and Vector Retrieval Augmented Generation for Efficient Information Extraction

论文地址：https://arxiv.org/abs/2408.04948

Github 地址：https://github.com/tahmidmir/HyrbridRAG

一、论文动机

背景：在金融领域，从非结构化文本数据（如财报电话会议记录）中提取和解释复杂信息对大型语言模型（LLMs）来说是一个挑战，尤其是当这些文档包含特定领域的术语和复杂格式时。

目的：HybridRAG 结合了 GraphRAG 和 VectorRAG 的优势，从向量数据库和知识图谱中检索上下文信息，以提供给 LLMs，从而生成更准确的回答。

二、论文思路

VectorRAG 工作流程：

从与外部文档相关的查询开始，这些文档不是 LLM 训练数据集的一部分。

查询用于搜索外部存储库（如向量数据库或索引语料库），以检索包含有用信息的相关文档或段落。

检索到的文档随后作为额外上下文反馈到 LLM 中，从而生成基于查询的响应。

这确保了生成内容不仅基于内部训练数据，还结合了检索到的外部信息。

GraphRAG 工作流程：

知识提取：从非结构化或半结构化数据中提取结构化信息，包括实体识别、关系提取和共指消解。

知识改进：通过移除冗余和填补信息空白来提高知识图谱的质量和完整性。

知识融合：结合来自多个源的信息，创建一个一致和统一的知识图谱。

利用知识图谱来增强 NLP 任务的性能，通过将知识图谱与 RAG 技术整合，GraphRAG 能够基于从金融文档中提取的结构化信息生成更准确和上下文感知的回答。

知识图谱构建：

GraphRAG：从用户输入的查询开始，查询用于搜索知识图谱以检索与查询相关的节点（实体）和边（关系）。然后从完整的知识图谱中提取包含这些相关节点和边的子图，以提供上下文。

HybridRAG 结合优势：HybridRAG 结合了 VectorRAG 和 GraphRAG 的优势，从向量数据库和知识图谱中检索上下文信息，以提供给 LLMs，从而生成更准确的回答。

三、实验设计与结果

实验结果：

忠实度：GraphRAG 和 HybridRAG 显示出更优越的性能，两者都达到了 0.96 的得分，而 VectorRAG 略低一些，得分为 0.94。

答案相关性得分：HybridRAG 以 0.96 的得分领先，其次是 VectorRAG 的 0.91，GraphRAG 的 0.89。

上下文精确度：GraphRAG 以 0.96 的得分最高，显著超过了 VectorRAG 的 0.84 和 HybridRAG 的 0.79。然而，在上下文召回率方面，VectorRAG 和 HybridRAG 都达到了完美的 1 分，而 GraphRAG 落后于 0.85。

四、论文总结

一种基于知识图谱 RAG 技术（GraphRAG）和 VectorRAG 技术相结合的新方法，称为 HybridRAG，以增强从金融文档中提取信息的问答系统，该方法被证明能够生成准确且与上下文相关的答案。在检索和生成阶段，就检索准确性和答案生成而言，从向量数据库和知识图谱中检索上下文的 HybridRAG 优于传统的 VectorRAG 和 GraphRAG。

W-RAG【进化搜索】

进化搜索：像个善于自我进化的搜索引擎，通过大模型对文章段落的评分来学习什么是好答案，逐步提升自己找到关键信息的能力。

发表时间：2024.08.15

论文名称：W-RAG: Weakly Supervised Dense Retrieval in RAG for Open-domain Question Answering

论文地址：https://arxiv.org/abs/2408.08444

Github 地址：https://github.com/jmnian/weak_label_for_rag

一、论文动机

问题：密集检索微调需要大量标注数据，耗费人力。

解决方案：利用 LLM 的重排能力生成弱标记数据，用于训练检索的向量模型。

二、论文思路

W-RAG 方法，通过利用 LLMs 的排名能力为密集检索器创建弱标记数据，从而解决了稀缺的地面真实证据问题。

W-RAG 过程分为三个阶段：

Step 1: 通过 BM25 从证据语料库中检索相关段落

使用 BM25 算法从语料库中检索与问题相关的段落。

Step 2: 使用 LLM 生成弱标签

将查询（query）、段落（passage）、指令（instruction）和答案（answer）组装成提示（prompt）。

通过大模型对提示生成答案。

计算每个段落生成 ground_truth_answer 的概率，作为弱标签。

使用 log-likelihood 来衡量每个候选段落的相关度分数。

Step 3: 通过弱标签训练密集检索器

使用获取到的查询、段落和相关度分数来训练密集检索器。

选择两个密集检索器：DPR 和 ColBERT。

训练密集检索器

DPR：使用双编码器架构，通过两个独立的 BERT 编码器将问题和段落映射到嵌入空间。

训练方式：in-batch negative training，使用 top 1 的段落作为正样本，top 2-n 的作为负样本。

损失函数：[ \text{loss} = -\log \frac{\exp(\alpha \cdot \text{sim}(q, s_1))}{\sum_{i=1}^n \exp(\alpha \cdot \text{sim}(q, s_i))} ]

ColBERT：使用双编码器架构，通过共享的 BERT 模型独立编码问题和段落。

训练数据构造：使用 positive sample 和 hard negative sample。

损失函数：[ \text{loss} = -\log \frac{\max(\text{sim}(q, s_p))}{\max(\text{sim}(q, s_p)) + \max(\text{sim}(q, s_n))} ]

三、实验设计与结果

实验设计

检索：recall

生成：F1、Rouge-L、BLEU-1

RAG 效果对比：Naive（直接用 llama3 作答）、GroundTruth（将 ground-truth 文档插入到 prompt 中作答）

检索效果对比：无监督模型（BM25、ColBERT，Contriever，ReContrever）、基于 GroundTruth 训练的模型（DPR、ColBERT）

Generator: Llama3-8B-Instruct

Retriever: DPR (bert-base-uncased、Yibin-Lei/ReContriever)，ColBERT（bert-base-uncased）

数据集：MSMARCO、QnA v2.1、NQ、SQuAD、WebQ，每个数据集选取 5000 个 QA 对和 500,000 个段落。

模型：

Baseline：

评估指标：

实验结果

提升效果：相比于 naive 方法，W-RAG 在检索和问答上都有显著提升，接近于 ground-truth 方法。

BM25 与 LLM 的排序能力：BM25 在排序能力上与 llama3-8B 有显著差距。

四、论文创新点

弱监督数据生成方法

背景：传统的密集检索（Dense Retrieval）微调需要大量标注数据，这不仅耗费大量人力，而且成本高昂。

创新点：提出了一种利用大型语言模型（LLM）的重排能力来生成弱标记数据的方法。这种方法不需要人工标注，而是通过模型自动生成标注数据，大大降低了数据标注的成本和工作量。

背景：现有的 RAG 系统在开放域问答中面临检索和生成的挑战，尤其是在处理复杂问题时，检索的准确性和生成的答案质量有待提高。

创新点：提出了 W-RAG（Weakly Supervised Dense Retrieval in RAG for Open-domain Question Answering），这是一个数据构造方法，通过三个阶段（检索、生成弱标签、训练密集检索器）来提升检索和生成的性能。具体步骤如下：

通过 BM25 从证据语料库中检索相关段落：利用传统的 BM25 算法快速检索与问题相关的段落。

使用 LLM 生成弱标签：将查询、段落、指令和答案组装成提示（prompt），通过 LLM 生成每个段落生成 ground_truth_answer 的概率，作为弱标签。

通过弱标签训练密集检索器：使用获取到的查询、段落和相关度分数来训练密集检索器，提升检索的准确性和效率。

W-RAG 框架

五、论文总结

开放域问答中的弱监督密集检索技术，利用大型语言模型的排序能力为训练密集检索器创建弱标注数据。通过评估大型语言模型基于问题和每个段落生成正确答案的概率，对通过 BM25 检索到的前 K 个段落进行重新排序。排名最高的段落随后被用作密集检索的正训练示例。

RAGChecker【质检员】

质检员：不只简单地判断答案对错，而是会深入检查整个回答过程中的每个环节，从资料查找到最终答案生成，就像一个严格的考官，既给出详细的评分报告，还会指出具体哪里需要改进。

发表时间：2024.08.15

论文名称：RAGChecker: A Fine-grained Framework for Diagnosing Retrieval-Augmented Generation

论文地址：https://arxiv.org/abs/2408.08067

Github 地址：https://github.com/amazon-science/RAGChecker

一、论文动机

RAG 技术的重要性：RAG 技术通过将外部知识库和大型语言模型（LLM）内部知识无缝整合，大幅提升了 AI 系统的准确性和可靠性。

评估挑战：现有的评估方法难以全面反映 RAG 系统的复杂性和实际表现，通常只能提供最终打分报告，缺乏细粒度的诊断信息。

二、论文思路

目的：RAGChecker 为 RAG 系统提供细粒度、全面、可靠的诊断报告，并为进一步提升性能提供可操作的方向。

主要特点：

细粒度评估：采用基于声明（claim）级别的蕴含关系检查，而非简单的回复级别评估，提供更详细的系统性能分析。

全面的指标体系：涵盖 RAG 系统各个方面性能的指标，包括忠实度、上下文利用率、噪声敏感度和幻觉等。

经过验证的有效性：评估结果与人类判断有很强的相关性，表现超过其他现有评估指标，保证了评估结果的可信度和实用性。

可操作的洞察：提供的诊断指标为改进 RAG 系统提供明确的方向指导，帮助研究人员和实践者开发更有效和可靠的 AI 应用。

三、实验设计与结果

整体指标：

Precision（精确率）：模型回答中正确陈述的比例。

Recall（召回率）：模型回答中包含的标准答案中陈述的比例。

F1 score（F1 分数）：精确率和召回率的调和平均数，提供平衡的性能度量。

检索模块指标：

Context Precision（上下文精确率）：在所有检索块中，包含至少一个标准答案陈述的块的比例。

Claim Recall（陈述召回率）：被检索块覆盖的标准答案陈述的比例。

生成模块指标：

Context Utilization（上下文利用率）：评估生成模块如何有效利用从检索块中获取的相关信息来产生正确的陈述。

Noise Sensitivity（噪音敏感度）：衡量生成模块在回答中包含来自检索块的错误信息的倾向。

Hallucination（幻觉）：测量模型生成既不存在于检索块也不在标准答案中的信息的频率。

Self-knowledge（模型内部知识）：评估模型在未从检索块获得信息的情况下，正确回答问题的频率。

Faithfulness（忠实度）：衡量生成模块的响应与检索块提供的信息的一致程度。

四、使用 RAGChecker

环境设置：安装 RAGChecker 及其依赖。

pip install ragchecker python -m spacy download en_core_web_sm

准备数据：将 RAG 系统的输出准备成特定的 JSON 格式，包括查询、标准答案、模型回答和检索的上下文。

运行评估：

使用命令行：

ragchecker-cli --input_path=examples/checking_inputs.json --output_path=examples/checking_outputs.json

使用 Python 代码：

from ragchecker import RAGResults, RAGChecker 
from ragchecker.metrics import all_metrics 
# 从 JSON 初始化 RAGResults 
with open("examples/checking_inputs.json") as fp: 
    rag_results = RAGResults.from_json(fp.read()) 
# 设置评估器 
evaluator = RAGChecker() 
# 评估结果 
evaluator.evaluate(rag_results, all_metrics) 
print(rag_results)

分析结果：RAGChecker 输出 json 格式的文件，展示评估指标，帮助开发者了解 RAG 系统的各个方面表现。

五、论文总结

RAGChecker 的诊断工具为 RAG 系统提供细粒度、全面、可靠的诊断报告，并为进一步提升性能，提供可操作的方向。它不仅能评估系统的整体表现，还能深入分析检索和生成两大核心模块的性能。

Meta-Knowledge-RAG【学者】

学者：像个学术界的资深研究员，不仅收集资料，还会主动思考问题，为每份文档做批注和总结，甚至预先设想可能的问题。它会把相关的知识点串联起来，形成知识网络，让查询变得更有深度和广度，就像有一个学者在帮你做研究综述。

发表时间：2024.08.16

论文名称：Meta Knowledge for Retrieval Augmented Large Language Models

论文地址：https://arxiv.org/abs/2408.09017

Github 地址：

一、论文动机

RAG 技术的重要性：RAG 通过整合与上下文相关、时效性强或领域知识，生成用户想要的正确答案，已成为减少模型幻觉的有效解决方案。

实际应用中的问题：

知识库文档可能包含大量噪声。

缺乏人工标注的信息或相关性标签。

对长文档进行分块无法保留整个文档的语义上下文。

用户查询通常较短、模糊，可能存在词汇不匹配。

相关信息可能分布在多个文档中，跨知识库的高级推理仍未得到有效解决。

二、论文思路

MK-RAG 工作流程：引入了'准备（Prepare）-重写（rewrite）-检索（retrieve）-读取（read）'（PR3）的工作流程。

准备：每个文档都由 LLM 处理，生成针对用户特征定制的自定义元数据和问答对。

重写：通过查询增强解锁新的知识库推理能力。

检索：利用元数据和问答对进行检索。

读取：生成最终答案。

方法细节

元数据生成：使用 Claude 3 Haiku 的思维链（CoT）提示生成元数据。

合成问答生成：生成合成的问答对，用于检索。

元知识摘要生成：生成元知识摘要（MK 摘要），用于用户查询的动态扩充。

查询和检索的增强生成：利用 MK 摘要对用户查询进行动态扩充，提升检索器的跨文档推理能力。

三、实验设计与结果

数据集：使用 arXiv API 整理的 2024 年的 2000 篇研究论文的数据集。

评估指标：

召回率（Recall）

精度（Precision）

特异性（Specificity）

广度（Breadth）

深度（Depth）

四、论文总结

Meta-Knowledge-RAG（MK Summary）引入了一种新颖的以数据为中心的 RAG 工作流程，将传统的'检索 - 读取'系统转变为更先进的'准备 - 重写 - 检索 - 读取'框架，以实现对知识库的更高领域专家级理解。我们的方法依赖于为每个文档生成元数据和合成的问题与答案以及为基于元数据的文档集群引入元知识摘要的新概念。所提出的创新实现了个性化的用户查询增强和跨知识库的深度信息检索。

CommunityKG-RAG【社群探索】

社群探索：像个熟悉社区关系网络的向导，善于利用知识间的关联和群组特征，在不需要特别学习的情况下，就能准确地找到相关信息，并验证其可靠性。

发表时间：2024.08.16

论文名称：CommunityKG-RAG: Leveraging Community Structures in Knowledge Graphs for Advanced Retrieval-Augmented Generation in Fact-Checking

论文地址：https://arxiv.org/abs/2408.08535

Github 地址：

一、论文动机

事实核查的重要性：在数字化信息时代，错误信息的迅速传播对公共讨论和全球决策产生了深远的影响，使得事实核查变得尤为重要。

现有技术的局限性：

大型语言模型（LLMs）在理解和生成人类语言方面展现出巨大潜力，但在事实核查中的应用受限于训练数据的时效性和生成错误信息的倾向。

RAG 系统通过结合 LLMs 的生成能力和外部数据检索来提高回答的准确性，但处理长文本和噪声信息仍面临挑战。

知识图谱（KGs）以其结构化和语义丰富的特性，为复杂信息的封装和组织提供了有效框架，但如何将 KGs 的结构化知识与 LLMs 处理的非结构化文本有效结合，以及如何优化这些信息的检索，仍是一个未被充分解决的问题。

二、论文思路

目标：通过结合知识图谱中的社区结构和 RAG 系统，提升事实核查的准确性和相关信息检索的相关性，无需额外的训练即可适应新领域和查询。

工作流程：

预处理：从事实核查文章中构建一个全面的知识图谱，运用共指消解和实体关系提取等技术。

社区检测：利用 Louvain 算法进行社区检测，识别出图中节点间相互连接更为紧密的社区。

节点嵌入：为知识图谱中的每个节点分配 BERT 模型的词嵌入，以捕捉实体的语义信息。

社区嵌入：计算社区的嵌入表示，通过 Sentence-BERT 模型实现，优化句子嵌入的质量。

社区检索：根据声明与社区的相关性分数，选择排名最高的社区。

句子选择：在这些顶级社区中，进一步筛选出与声明最相关的顶级句子，以供语言模型使用。

生成回答：利用精选的社区和句子增强语言模型的生成过程，提供更准确、更丰富的事实核查回答。

三、实验设计与结果

数据集：使用 MOCHEG 数据集，包含从 PolitiFact 和 Snopes 等事实核查网站收集的 15,601 条标注了真实性标签的声明。

基线模型：

No Retrieval：在没有上下文或检索的情况下生成答案。

Semantic Retrieval：使用语义相似性检索上下文，计算提示和上下文之间的余弦相似度。

KAPING：一个零样本 RAG 框架，基于输入文本和三元组之间的句子相似性进行检索。

实验设置：

使用 LLaMa2 7B 模型作为主要的大语言模型（LLM）。

使用准确率作为衡量 LLMs 在验证声明时的性能指标。

对于所有 RAG 系统，使用特定的提示格式，并配置生成过程中的参数，如温度、重复惩罚和新令牌的限制。

实验结果：

当阈值增加到 75% 时，模型性能略有下降。

当阈值提升至 100% 时，模型的准确率显著提高。

当句子选择阈值从 25% 增加到 50% 时，模型准确率略有下降。

当句子选择阈值进一步增加到 75% 和 100% 时，模型的准确率逐渐提升，100% 的句子选择阈值实现了最高的准确率。

LLaMa2 7B 模型在应用 CommunityKG-RAG 后准确率提高了 6.18%。

LLaMa3 8B 模型在应用 CommunityKG-RAG 后准确率提高了 3.21%。

CommunityKG-RAG 的准确率达到了 56.24%，远超其他基线方法（No Retrieval 39.79%，Semantic Retrieval 43.84%，KAPING 39.41%）。

在不同基础语言模型上的性能表现：

社区到句子选择阈值对事实核查准确性的影响：

同时调整顶级社区选择和社区到句子选择阈值对事实核查准确性的综合影响：

四、论文总结

CommunityKG-RAG 是一种新颖的零样本框架，它将知识图谱中的社区结构与 RAG 系统相结合，以增强事实核查过程。CommunityKG-RAG 能够在无需额外训练的情况下适应新的领域和查询，它利用知识图谱中社区结构的多跳性质，显著提高信息检索的准确性和相关性。

TC-RAG【记忆术士】

记忆术士：给 LLM 装了个带自动清理功能的大脑。就像我们解题，会把重要步骤写在草稿纸上，做完就划掉。它不是死记硬背，该记的记住，该忘的及时清空，像个会收拾房间的学霸。

发表时间：2024.08.17

论文名称：TC-RAG: Turing-Complete RAG's Case study on Medical LLM Systems

论文地址：https://arxiv.org/abs/2408.09199

Github 地址：https://github.com/Artessay/TC-RAG

一、论文动机

RAG 技术的重要性：RAG 通过结合 LLMs 的生成能力和外部数据检索来提高回答的准确性，但在处理长文本和噪声信息时仍面临挑战。

现有 RAG 方法的局限性：现有 RAG 方法忽视了系统状态变量的引入，这些变量对于确保自适应控制、检索停止和系统收敛至关重要。此外，现有方法不是图灵完备的，缺乏动态管理和监控检索过程的能力。

二、论文思路

目标：提出一个图灵完备的 RAG 系统，通过引入系统状态变量和内存堆栈系统，实现更高效、准确的知识检索。

关键组件：

内存堆栈系统：监控中间状态，确保检索过程可靠地收敛到最佳结论。

状态变量：实时评估系统状态，决定是否继续、停止或改进检索过程。

自适应检索：根据模型的内部参数化知识决定是否检索以及检索什么，避免检索无关信息。

图灵完备的记忆栈定义：

记忆栈 Tc：包括状态集合 S、动作集合 A、记忆栈 M、状态转移函数 delta、初始状态 s0、终止状态 F 和阈值 sigma。

复合操作：定义了 5 个由 push 和 pop 组合而成的有意义的行为，包括思考、工具调用、反思、总结和结论。

状态变量：

条件困惑度：计算大模型生成栈顶输出内容时的困惑度。

不确定性：计算输出栈顶信息的熵值。

终止条件：当状态变量小于阈值时，系统停止检索并输出最终答案。

三、实验设计与结果

实验设置：

医学 LLM 模型：使用海量数据持续预训练的医学 LLM。

医学工具库：包括医学知识图谱、医学文档库、网页检索、百科检索和电子病历数据。

实验结果：

性能提升：TC-RAG 在多个真实世界的医疗数据集上显著优于现有基准方法，准确率平均提升了 7.20%。

噪声处理：TC-RAG 在弹出检索噪声、保留有效信息方面表现出色。

消融实验：验证了反思与总结动作的有效性以及状态变量引入的必要性。

四、论文总结

通过引入图灵完备的系统来管理状态变量，从而实现更高效、准确的知识检索。通过利用具有自适应检索、推理和规划能力的记忆堆栈系统，TC-RAG 不仅确保了检索过程的受控停止，还通过 Push 和 Pop 操作减轻了错误知识的积累。

RAGLAB【竞技场】

竞技场：让各种算法可以在相同的规则下进行公平竞争和比较，就像科学实验室里的标准化测试流程，确保每个新方法都能得到客观透明的评估。

发表时间：2024.08.21

论文名称：RAGLAB: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation

论文地址：https://arxiv.org/abs/2408.11381

Github 地址：https://github.com/fate-ubw/RAGLab

一、论文动机

RAG 技术的重要性：RAG 通过结合大型语言模型（LLMs）的生成能力和外部数据检索来提高回答的准确性，但在研究和开发过程中面临两大主要问题：

许多已发表的成果要么不开源，要么难以搭建环境，导致研究人员不得不从零开始研发新算法。

新的 RAG 算法不断涌现，但这些算法在基本组件和评估方法上不统一，难以准确评估改进效果。

二、论文思路

目标：提供一个面向研究人员的 RAG 工具包，用于对现有 RAG 算法进行公平比较，并简化新算法的开发流程。

整体架构：RAGLAB 的整体架构包括多个关键组件，如检索器、语料库、生成器、指令实验室、训练器、数据集和指标。

检索器：

整合了两个高性能的基于 BERT 的模型：Contriever 和 ColBERT。

统一了不同检索器类的查询接口，方便用户在各种检索器之间无缝切换。

设计了检索器服务器和客户端架构，实现高并发访问。

实现了检索缓存机制，存储初始查询结果及其检索到的知识，提高查询效率。

语料库：

提供了两个版本的预处理维基百科语料库，基于 DPR 项目开源的 2018 年数据和 FactScore 开源的 2023 年数据。

为 ColBERT 和 Contriever 模型预先构建了索引和嵌入。

开源了所有处理脚本，方便研究人员直接下载预处理的维基百科语料库及其相应的索引和嵌入。

生成器：

集成了 Huggingface Transformers 和 VLLM，兼容众多开源模型，提供稳定高效的推理性能。

融入了量化和 LoRA 功能，支持在计算资源有限的情况下使用大型模型。

开发了 GPU 管理模块，支持在指定 GPU 上精准分配多个生成器。

支持闭源大型语言模型，如 OpenAI 模型，未来将扩展到 Claude、Gemini 和 Azure 等。

指令实验室：

设计了指令实验室模块，包括系统指令、任务指令和算法指令。

允许用户从 3 个指令池中高效导入和组合所需的提示。

用户可以在配置设置中调整参数，便于使用不同指令进行对比实验。

训练器：

集成了 Accelerate 和 DeepSpeed 库，提供全面且高效的微调能力。

支持 LoRA 和 QLoRA 技术，使用户能够在计算资源有限的情况下微调大型模型。

三、实验设计与结果

数据集和指标：

收集了 10 个广泛使用的测试数据集，涵盖 5 个不同任务。

提供了 3 个经典指标（准确性、精确匹配、F1 分数）和 2 个高级指标（FactScore 和 ALCE）。

四、论文总结

新型 RAG 算法之间越来越缺乏全面和公平的比较，开源工具的高级抽象导致缺乏透明度，并限制了开发新算法和评估指标的能力。RAGLAB 是一个模块化、研究导向的开源库，重现 6 种算法并构建全面研究生态。借助 RAGLAB，我们在 10 个基准上公平对比 6 种算法，助力研究人员高效评估和创新算法。

2024.09

MemoRAG【过目不忘】

过目不忘：它不只是按需查找资料，而是已经把整个知识库都深入理解并记在心里。当你问问题时，它能快速从这个"超级大脑"中调取相关记忆，给出既准确又富有见地的答案，就像一个博学多识的专家。

发表时间：2024.09.01

论文名称：MemoRAG: Moving Towards Next-Gen RAG Via Memory-Inspired Knowledge Discovery

论文地址：https://arxiv.org/abs/2408.05591

Github 地址：https://github.com/qhjqhj00/MemoRAG

OP-RAG【注意力管理】

注意力管理：就像看一本特别厚的书，你不可能把每个细节都记住，但懂得在关键章节做好标记的人才是高手。它不是漫无目的地看，而是像个资深读书人，边读边在重点处画下重点，需要的时候直接翻到标记页。

发表时间：2024.09.03

论文名称：In Defense of RAG in the Era of Long-Context Language Models

论文地址：https://arxiv.org/abs/2409.01666

Github 地址：https://github.com/qhjqhj00/MemoRAG

AgentRE【智能抽取】

智能抽取：像个善于观察人际关系的社会学家，不仅能记住关键信息，还会主动查证并深入思考，从而准确理解复杂的关系网络。即使面对错综复杂的关系，也能通过多角度分析，理清其中的脉络，避免望文生义。

发表时间：2024.09.03

论文名称：AgentRE: An Agent-Based Framework for Navigating Complex Information Landscapes in Relation Extraction

论文地址：https://arxiv.org/abs/2409.01854

Github 地址：https://github.com/Lightblues/AgentRE

iText2KG【建筑师】

建筑师：像个有条理的工程师，通过分步骤提炼、提取和整合信息，逐步将零散文档转化为系统的知识网络，而且不需要事先准备详细的建筑图纸，可以根据需要灵活地扩建和完善。

发表时间：2024.09.05

论文名称：iText2KG: Incremental Knowledge Graphs Construction Using Large Language Models

论文地址：https://arxiv.org/abs/2409.03284

Github 地址：https://github.com/AuvaLab/itext2kg

GraphInsight【图谱解读】

图谱解读：像个擅长信息图表分析的专家，知道把重要信息放在最显眼的位置，同时在需要时查阅参考资料来补充细节，并能 step by step 地推理复杂图表，让 AI 既能把握全局又不遗漏细节。

发表时间：2024.09.05

论文名称：GraphInsight: Unlocking Insights in Large Language Models for Graph Structure Understanding

Github 地址：

LA-RAG【方言通】

方言通：像个精通各地方言的语言专家，通过细致的语音分析和上下文理解，不仅能准确识别标准普通话，还能听懂带有地方特色的口音，让 AI 与不同地区的人都能无障碍交流。

发表时间：2024.09.13

论文名称：LA-RAG:Enhancing LLM-based ASR Accuracy with Retrieval-Augmented Generation

论文地址：https://arxiv.org/abs/2409.08597

Github 地址：

SFR-RAG【精简检索】

精简检索：像个精练的参考顾问，体积虽小但功能精准，既能理解需求又懂得寻求外部帮助，保证回答既准确又高效。

发表时间：2024.09.16

论文名称：SFR-RAG: Towards Contextually Faithful LLMs

论文地址：https://arxiv.org/abs/2409.09916

Github 地址：

FlexRAG【压缩专家】

压缩专家：把长篇大论浓缩成精华摘要，而且压缩比例可以根据需要灵活调整，既不丢失关键信息，又能节省存储和处理成本。就像把一本厚书精炼成一份简明扼要的读书笔记。

发表时间：2024.09.24

论文名称：Lighter And Better: Towards Flexible Context Adaptation For Retrieval Augmented Generation

论文地址：https://arxiv.org/abs/2409.15699

Github 地址：

CoTKR【图谱翻译】

图谱翻译：像个耐心的老师，先理解知识的来龙去脉，再一步步讲解，不是简单复述而是深入浅出地转述。同时通过不断收集"学生"的反馈来改进自己的讲解方式，让知识传递更加清晰有效。

发表时间：2024.09.29

论文名称：CoTKR: Chain-of-Thought Enhanced Knowledge Rewriting for Complex Knowledge Graph Question Answering

论文地址：https://arxiv.org/abs/2409.19753

Github 地址：https://github.com/wuyike2000/CoTKR

2024.10

Open-RAG【智囊团】

智囊团：把庞大的语言模型分解成专家小组，让它们既能独立思考又能协同工作，还特别会分辨真假信息，关键时刻知道该不该查资料，像个经验丰富的智囊团。

发表时间：2024.10.02

论文名称：Open-RAG: Enhanced Retrieval-Augmented Reasoning with Open-Source Large Language Models

论文地址：https://arxiv.org/abs/2409.01782

Github 地址：https://github.com/ShayekhBinIslam/openrag

一、论文动机

现有的 RAG 方法在处理复杂查询（如多跳检索任务）时，推理能力有限。OpenRAG 框架通过增强开源 LLM 的推理能力，解决了这一问题。

二、论文思路

架构转换：OpenRAG 将任意密集 LLM 转换为参数高效的稀疏专家混合（MoE）模型，能够处理单跳和多跳查询等复杂推理任务。具体实现包括：

路由器（R）从头开始训练。

前馈网络（FFN）层保持冻结，并由基于并行适配器的专家（E）进行调整。

其他层被复制。

训练过程: 通过独特的训练方法，使模型能够导航看似相关但具有误导性的挑战性干扰因素。

训练过程中，模型学习生成检索/不检索的反射标记，并评估检索内容的相关性、支持程度和实用性。

OPEN-RAG 训练数据准备：涉及从每个原始对（q, y）生成四种新的训练实例的变化，每种都使用真实情况/LLM 评论家和检索到的段落，结合不同的反射标记。OPEN-RAG 不仅使 LLM 能够反思生成质量，还能够对比干扰项。

推理流程：

检索/不检索：模型学会生成检索/不检索的标记，以指示是否需要检索来回答查询。

相关性评估：对于检索到的内容，模型生成相关性标记，指示内容是否与查询相关。

生成答案：根据预测的相关性、支持度和效用标记，对所有可能的答案进行排序，生成最终答案。

三、实验设计与结果

在多种知识密集型的单跳/多跳短文/长文推理任务中，基于 Llama2-7B 的 OpenRAG 在事实准确性和推理能力方面显著优于现有的开源 RAG 模型，并且常常匹配或超越了最先进的专有 LLMs 及其 RAG 模型。

OpenRAG 在多个任务中超越了 ChatGPT-RAG、Self-RAG、RAG 2.0 和 104B RAG-Command R+，树立了新的基准。

OpenRAG 结合 CRAG（Corrective Retrieval Augmented Generation）方法，评估了模型对检索质量的鲁棒性。结果表明，OpenRAG 在结合 CRAG 数据集时表现优于其他基线，显示出对高质量检索的潜在改进能力。

四、论文总结

OpenRAG 通过创新的架构和训练方法，显著提升了开源 LLM 在 RAG 任务中的推理能力，并在多个任务中超越了现有的先进模型。其自适应检索策略和鲁棒性分析进一步证明了其在实际应用中的潜力。

TableRAG【Excel 专家】

Excel 专家：不只简单地查看表格数据，而是懂得从表头和单元格两个维度去理解和检索数据，就像熟练使用数据透视表一样，能快速定位和提取所需的关键信息。

发表时间：2024.10.07

论文名称：TableRAG: Million-Token Table Understanding with Language Models

论文地址：https://arxiv.org/abs/2410.04739

Github 地址：https://github.com/YuhangWuAI/tablerag

一、论文动机

传统利用 LLM 进行表格理解的方法通常将整个表格作为输入，但这种方法存在以下局限性：

上下文长度限制：大型表格（如 100 列×200 行）的单元格数量可能超过 40,000 个，超出 LLM 的处理能力。

推理能力削弱：过长的上下文可能导致'Lost-in-the-Middle'现象，影响推理能力。

计算成本和延迟：表格尺寸增加时，计算成本和延迟显著上升。

此外，一些改进方法（如截断表格或仅读取 Schema）会丢失关键信息，而将行和列编码为固定大小的嵌入可能会丢失语义信息。

二、论文思路

为解决上述问题，Google 提出了TableRAG，通过查询扩展与模式（Schema）和单元格检索相结合，精准定位关键数据，从而实现高效的数据编码和精确检索。TableRAG 的核心在于：

上图展示了 TableRAG 与传统表格理解任务的区别。

(a) - (d)：分别表示 4 种方法在提示词中包含的数据（阴影部分），其中（d）是 TableRAG 方法：

(a) 完整读取表格：LM 读取整个表格，在大型表格中往往不现实。

(b) 只读取 Schema：LM 只读取列名和数据类型组成的模式，这种方法会导致表格内容丢失。

(d) Schema-单元格检索（TableRAG）：根据与 LM 生成的问题相关性，对列名和单元格进行编码和检索。只有检索到的 Schema 和单元格被提供给 LM，从而在编码和推理上都提高了效率。

(e) 在 ArcadeQA 数据集上的检索结果显示：TableRAG 在列和单元格检索方面均优于其他方法，进而增强了后续的表格推理过程。

TableRAG 的工作流程如下：

表格查询扩展：高效处理表格的关键在于精确地识别出查询所需的列名和单元格值。与传统的表格理解任务不同的在于，TableRAG 单独为 Schema 和单元格分别生成独立查询。

Schema 检索：生成查询后，Schema 检索通过预先训练的编码器 fenc 获取相关的列名，fenc 会对查询进行编码，并与编码的列名进行匹配以确定其相关性。检索到的 Schema 数据包括列名、数据类型和示例值。将列转换为整数、浮点数或日期时间数据类型；如果这几种类型都不适合的话，保留为分类列。

对于被识别为数值或日期时间数据类型的列，将最小值和最大值作为示例值。

对于分类列，展示频率最高的三个类别作为示例值。

汇总每个查询的前 K 个检索结果，并根据它们与最接近查询的相似度进行排序。检索到的 Schema 提供了表格格式和内容的结构化概览，用于更精确的数据提取。

单元格检索：检索与问题相关的单元格值，支持精确数据提取。单元格检索的作用在于：

单元格识别：使 LLM 能够精确地检测表格中特定关键词的存在。例如，区分'tv'和'television'，确保搜索和操作基于精确的数据条目。

单元格 - 列关联：使 LLM 能够将特定单元格与其相关的列名关联起来。对于处理特定属性的问题至关重要，如将'钱包'直接与'描述'列关联，实现行索引。

编码预算下的单元格检索：将检索到的 Schema 和单元格值提供给 LLM，生成答案。

三、实验设计与结果

回答准确性。TableRAG 在 ArcadeQA 和 BirdQA 数据集上超越了其他方法，包括读取全表、读取 Schema 和行列检索等方法。GPT 3.5 Turbo 在所有方法中表现最佳。

检索性能

列检索：TableRAG 在精确度上优于其他方法，表明其在快速识别相关列方面非常有效。

单元格检索：TableRAG 在召回率、精确度和 F1 分数上均优于其他方法。

伸缩性测试。TableRAG 在不同表格尺寸（从 50×50 到 1000×1000）下表现出色，即使在大规模表格中也能保持较高的准确率。

与现有技术的比较。TableRAG 在 WikiTableQA 数据集上超越了现有方法（如 TaBERT、Text-to-SQL 等），证明了其在不同规模和复杂性表格上的有效性。

消融研究

检索方法的影响。基于嵌入的检索方法性能最佳，超越了 BM25 和混合方法。

检索结果数量 K 的影响。增加 K 值会增加上下文长度，但并不一致提升性能。TableRAG 通过减少 K 值，降低了推理成本。

编码预算的影响。TableRAG 在不同编码预算下保持一致性能，表明其通过单元格频率构建语料库的方法有效。

查询扩展的影响。查询扩展显著提升了 TableRAG 在不同数据集和语言模型中的性能。

模式检索和单元格检索。模式检索和单元格检索均显著提升了推理性能，分别提升了 9.4% 和 11.5%。

四、论文优势

高效性：通过检索关键数据，大幅缩短提示长度，减少信息丢失。

可扩展性：即使面对百万级单元格的表格，也能保持可控的计算成本。

准确性：在 ArcadeQA 和 BirdQA 数据集上，TableRAG 的检索设计表现卓越，准确率最高。

五、论文总结

TableRAG 通过结合模式检索和单元格检索，解决了传统方法在处理大规模表格时的局限性。它在检索效率、准确性和可扩展性方面表现出色，适用于百万级单元格的表格理解任务。TableRAG 为大规模表格处理提供了一种高效、准确且可扩展的解决方案。

LightRAG【蜘蛛侠】

蜘蛛侠：在知识的网中灵活穿梭，既能抓住知识点之间的丝，又能借网顺藤摸瓜。像个长了千里眼的图书管理员，不仅知道每本书在哪，还知道哪些书该一起看。

发表时间：2024.10.08

论文名称：LightRAG: Simple and Fast Retrieval-Augmented Generation

论文地址：https://arxiv.org/abs/2410.05779

Github 地址：https://github.com/HKUDS/LightRAG

AstuteRAG【明智判官】

明智判官：对外部信息保持警惕，不轻信检索结果，善用自身积累的知识，甄别信息真伪，像资深法官一样，权衡多方证据定论。

发表时间：2024.10.09

论文名称：Astute RAG: Overcoming Imperfect Retrieval Augmentation and Knowledge Conflicts for Large Language Models

论文地址：https://arxiv.org/abs/2410.07176

Github 地址：

TurboRAG【速记高手】

速记高手：提前把功课做好，把答案都记在小本本里。像个考前突击的学霸，不是临场抱佛脚，而是把常考题提前整理成错题本。需要的时候直接翻出来用，省得每次都要现场推导一遍。

发表时间：2024.10.10

论文名称：TurboRAG: Accelerating Retrieval-Augmented Generation with Precomputed KV Caches for Chunked Text

论文地址：https://arxiv.org/abs/2410.07590

Github 地址：https://github.com/MooreThreads/TurboRAG

StructRAG【收纳师】

收纳师：把杂乱无章的信息像收纳衣柜一样分门别类地整理好。像个模仿人类思维的学霸，不是死记硬背，而是先画个思维导图。

发表时间：2024.10.11

论文名称：StructRAG: Boosting Knowledge Intensive Reasoning of LLMs via Inference-time Hybrid Information Structurization

论文地址：https://arxiv.org/abs/2410.08815

Github 地址：https://github.com/Li-Z-Q/StructRAG

VisRAG【火眼金睛】

火眼金睛：终于悟出文字不过是图像的一种特殊表现形式。像个开了天眼的阅读者，不再执着于逐字解析，而是直接"看"透全局。用照相机代替了 OCR，懂得了"一图胜千言"的精髓。

发表时间：2024.10.14

论文名称：VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents

论文地址：https://arxiv.org/abs/2410.10594

Github 地址：https://github.com/openbmb/visrag

AGENTiGraph【知识管家】

知识管家：像个善于对话的图书管理员，通过日常交流帮你整理和展示知识，带着一队助手随时准备解答问题、更新资料，让知识管理变得简单自然。

发表时间：2024.10.15

论文名称：AGENTiGraph: An Interactive Knowledge Graph Platform for LLM-based Chatbots Utilizing Private Data

论文地址：https://arxiv.org/abs/2410.11531

Github 地址：

RuleRAG【循规蹈矩】

循规蹈矩：用规矩来教 AI 做事，就像带新人入职，先给本员工手册。不是漫无目的地学，而是像个严格的老师，先把规矩和范例都讲明白，然后再让学生自己动手。做多了，这些规矩就变成了肌肉记忆，下次遇到类似问题自然知道怎么处理。

发表时间：2024.10.15

论文名称：RuleRAG: Rule-guided retrieval-augmented generation with language models for question answering

论文地址：https://arxiv.org/abs/2410.22353

Github 地址：https://github.com/chenzhongwu20/RuleRAG_ICL_FT

Class-RAG【法官】

法官：不是靠死板的条文判案，而是通过不断扩充的判例库来研判。像个经验老到的法官，手握活页法典，随时翻阅最新案例，让判决既有温度又有尺度。

发表时间：2024.10.18

论文名称：Class-RAG: Content Moderation with Retrieval Augmented Generation

论文地址：https://arxiv.org/abs/2410.14881

Github 地址：

Self-RAG【反思者】

反思者：在回答问题时，不仅会查阅资料，还会不断思考和检查自己的答案是否准确完整。通过"边说边想"的方式，像一个谨慎的学者一样，确保每个观点都有可靠的依据支持。

发表时间：2024.10.23

论文名称：Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection

论文地址：https://arxiv.org/abs/2410.11511

Github 地址：https://github.com/AkariAsai/self-rag

SimRAG【自学成才】

自学成才：面对专业领域时，先自己提问再自己回答，通过不断练习来提升专业知识储备，就像学生通过反复做习题来熟悉专业知识一样。

发表时间：2024.10.23

论文名称：SimRAG: Self-Improving Retrieval-Augmented Generation for Adapting Large Language Models to Specialized Domains

论文地址：https://arxiv.org/abs/2410.17952

Github 地址：

ChunkRAG【摘抄达人】

摘抄达人：先把长文章分成小段落，再用专业眼光挑出最相关的片段，既不遗漏重点，又不被无关内容干扰。

发表时间：2024.10.23

论文名称：SimRAG: Self-Improving Retrieval-Augmented Generation for Adapting Large Language Models to Specialized Domains

论文地址：https://arxiv.org/abs/2410.17952

Github 地址：

FastGraphRAG【雷达】

雷达：像谷歌网页排名一样，给知识点也排出个热度榜。就好比社交网络中的意见领袖，越多人关注就越容易被看见。它不是漫无目的地搜索，而是像个带着雷达的侦察兵，哪里的信号强就往哪里看。

发表时间：2024.10.23

论文名称：

论文地址：

Github 地址：https://github.com/circlemind-ai/fast-graphrag

AutoRAG【调音师】

调音师：一位经验丰富的调音师，不是靠猜测调音，而是通过科学测试找到最佳音效。它会自动尝试各种 RAG 组合，就像调音师测试不同的音响设备搭配，最终找到最和谐的"演奏方案"。

发表时间：2024.10.28

论文名称：AutoRAG: Automated Framework for optimization of Retrieval Augmented Generation Pipeline

论文地址：https://arxiv.org/abs/2410.20878

Github 地址：https://github.com/Marker-Inc-Korea/AutoRAG_ARAGOG_Paper

Plan×RAG【项目经理】

项目经理：先规划后行动，把大任务分解成小任务，安排多个"专家"并行工作。每个专家负责自己的领域，最后由项目经理统筹汇总结果。这种方式不仅更快、更准，还能清楚交代每个结论的来源。

发表时间：2024.10.28

论文名称：Plan×RAG: Planning-guided Retrieval Augmented Generation

论文地址：https://arxiv.org/abs/2410.20753

SubgraphRAG【定位仪】

定位仪：不是漫无目的地大海捞针，而是精准绘制一张小型知识地图，让 AI 能快速找到答案。

发表时间：2024.10.28

论文名称：Simple is Effective: The Roles of Graphs and Large Language Models in Knowledge-Graph-Based Retrieval-Augmented Generation

论文地址：https://arxiv.org/abs/2410.20724

Github 地址：https://github.com/Graph-COM/SubgraphRAG

2024.11

RuAG【炼金术士】

RAGViz【透视眼】

AgenticRAG【智能助手】

HtmlRAG【排版师】

M3DocRAG【感官达人】

KAG【逻辑大师】

FILCO【筛选师】

大模型&AI 产品经理如何学习

求大家的点赞和收藏，我花 2 万买的大模型学习资料免费共享给你们，来看看有哪些东西。

1.学习路线图

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从 Prompts 角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云 PAI 平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以 LangChain 框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以 SD 多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

2.视频教程

网上虽然也有很多的学习资源，但基本上都残缺不全的，这是我自己整理的大模型视频教程，上面路线图的每一个知识点，我都有配套的视频讲解。

（都打包成一块的了，不能一一展开，总共 300 多集）

因篇幅有限，仅展示部分资料，需要点击下方图片前往获取

3.技术文档和电子书

这里主要整理了大模型相关 PDF 书籍、行业报告、文档，有几百本，都是目前行业最新的。

4.LLM 面试题和面经合集

这里主要整理了行业目前最新的大模型面试题和各种大厂 offer 面经合集。

👉学会后的收获：👈 • 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据 AI 应用开发，实现大模型理论、掌握 GPU 算力、硬件、LangChain 开发框架和项目实战技能，学会 Fine-tuning 垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

1.AI 大模型学习路线图 2.100 套 AI 大模型商业化落地方案 3.100 集大模型视频教程 4.200 本大模型 PDF 书籍 5.LLM 面试题合集 6.AI 产品经理资源合集

👉获取方式： 😝有需要的小伙伴，可以保存图片到 wx 扫描二 v 码免费领取【保证 100% 免费】🆓

注：本文档末尾关于学习资料分享、二维码引导及推广内容已按规范清理，仅保留技术综述主体。