One Shot Dominance: RAG 系统知识投毒攻击论文解读

One Shot Dominance: Knowledge Poisoning Attack on Retrieval-Augmented Generation Systems

EMNLP 2025

阅后总结：

作者是对 PoisonedRAG 方案的进一步优化，目的是使用单一有毒文档影响 RAG 系统的决策。作者把有毒文本的构造分成两部分：一个是权威机构的认证信息，增强生成模型对有毒文本的置信度；另一个是证据链生成，确保逻辑闭环并且和目标问题的主题契合。

前置任务则是让一个大模型依据目标问题和目标答案，抽取出来问题的核心意图以及各种实体和关系。依据意图、实体和关系，分别让 CoE 和 Authority 两个环节生成两段文本，前者确保所有的实体和关系都被多次重复并且使用的是目标答案，可以保证一定的检索度；后者是虚拟出来权威机构认证的瞎话，也包含了抽取出来的实体。这些强关联实体保证了一定程度的检索度，因此不需要显式的 PRAG 问题本体类型文本。

核心上来看是提示词工程，用大模型完成了文本优化，并且保证了相似度。

从图识图理解作者的工作

作者似乎是在尝试构造单条恶意文本，使得恶意文本的诱导能力更加突出。

构造方案似乎是多 agent 协同完成，具体怎么实现还是要看原文。

以 PoisonedRAG 为代表的知识投毒攻击需要注入多个有毒文档导致隐蔽性差，并且只能在简单的查询上发挥作用，限制了现实世界的适用性，作者的工作则是对当下投毒攻击的一个进一步改进，单条文本尝试达到多文本的效果，提出的是 AuthChain 攻击方案。

如果使用 PoisonedRAG 方案构造一个有毒文本，导致的是它与其他 topk 造成了知识冲突，并且 LLM 内部知识也可能否决这种恶意文本的诱导，从图中可以看出，LLM 的决策是少数服从多数，并且更倾向于与内部知识对齐的知识。

AuthChain

1. 基于意图的内容生成

目的：在检索过程中最大化文档的可见性。

从问题中提取关键特征，生成基于意图的内容来指导后续内容生成。

特征提取：

意图，提取为名词或名词短语，代表问题的最终目标。这有助于确保生成的内容直接解决 LLM 在检索和推理过程中优先考虑的内容。
证据链由证据节点及其关系组成，捕获问题的逻辑结构：证据节点是问题中充当关键组件的关键实体。证据关系表示这些节点之间的逻辑连接。

意图和证据抽取的提示词模板

给定提取的意图、目标问题和答案，AuthChain 提示意图代理生成基于意图的内容。代理被指示生成的内容不仅提供目标答案，而且还明确地将问题的意图纳入生成的文本中。通过制定强调答案生成和意图整合的提示，代理生成的内容自然与问题的基本目标相一致，这有助于它实现更高的检索排名并在 LLM 推理过程中获得更多关注。

2. 证据链内容生成

为了既保持高可检索性又优于其他外部知识源，AuthChain 构建了独立的证据链，保留所有问题元素及其逻辑联系。虽然基于意图的内容提供了与问题的初步一致性，但我们需要确保生成的内容全面涵盖所有提取的证据节点及其关系。

如图 2 所示，实施迭代细化过程来构建证据链（CoE）内容。首先，基于意图的内容和提取的证据链都输入到 CoE 法官代理。该代理评估内容是否完全包含所有证据节点及其关系。如果确认完全覆盖，则直接将内容输出为 CoE 内容。否则，判断代理会提供合并缺失元素的具体建议，例如添加缺失的证据节点或建立节点之间的语义关系。

然后，这些建议与当前内容一起转发给修订代理进行细化。这个迭代评估和修改过程一直持续到 CoE 法官代理确认证据链完整保存，此时当前内容最终确定为 CoE 内容。

CoE 判决 agent 的 prompt

复盘 agent 的 prompt

3. 权威内容生成

假设权威机构认可的内容，加上最近的时间线陈述，可以有效地将 LLM 的注意力转向外部信息，同时减少对其内部知识的依赖。

AuthChain 采用权威生成器代理，将基于意图的内容、有针对性的答案和问题衍生的特征作为输入。通过合并这些功能，生成的内容与原始问题保持更强的语义一致性，从而促进更好的检索。代理首先分析基于意图的内容上下文，以确定最合适的权威机构进行背书。然后，它将机构支持与最近的时间线信息综合起来，以验证目标答案，最终产生权威内容。权限生成器代理的详细提示模板：

最后，AuthChain 将 CoE 内容与权威内容整合，形成最终的中毒文档，然后将其注入到知识库中。AuthChain 生成的中毒文档示例：

实验

数据集：NQ，MS-MARCO，HotpotQA

检索器：Contriever，检索 top5 结果

大模型：gpt3.5，gpt4，gpt4o，llama3-8b，llama3-70b，deepseek-v3-0324

One Shot Dominance: Knowledge Poisoning Attack on Retrieval-Augmented Generation Systems

EMNLP 2025

阅后总结：

作者是对 PoisonedRAG 方案的进一步优化，目的是使用单一有毒文档影响 RAG 系统的决策。作者把有毒文本的构造分成两部分：一个是权威机构的认证信息，增强生成模型对有毒文本的置信度；另一个是证据链生成，确保逻辑闭环并且和目标问题的主题契合。

前置任务则是让一个大模型依据目标问题和目标答案，抽取出来问题的核心意图以及各种实体和关系。依据意图、实体和关系，分别让 CoE 和 Authority 两个环节生成两段文本，前者确保所有的实体和关系都被多次重复并且使用的是目标答案，可以保证一定的检索度；后者是虚拟出来权威机构认证的瞎话，也包含了抽取出来的实体。这些强关联实体保证了一定程度的检索度，因此不需要显式的 PRAG 问题本体类型文本。

核心上来看是提示词工程，用大模型完成了文本优化，并且保证了相似度。

从图识图理解作者的工作

作者似乎是在尝试构造单条恶意文本，使得恶意文本的诱导能力更加突出。

构造方案似乎是多 agent 协同完成，具体怎么实现还是要看原文。

AuthChain

1. 基于意图的内容生成

目的：在检索过程中最大化文档的可见性。

从问题中提取关键特征，生成基于意图的内容来指导后续内容生成。

特征提取：

意图，提取为名词或名词短语，代表问题的最终目标。这有助于确保生成的内容直接解决 LLM 在检索和推理过程中优先考虑的内容。
证据链由证据节点及其关系组成，捕获问题的逻辑结构：证据节点是问题中充当关键组件的关键实体。证据关系表示这些节点之间的逻辑连接。

意图和证据抽取的提示词模板

2. 证据链内容生成

CoE 判决 agent 的 prompt

复盘 agent 的 prompt

3. 权威内容生成

假设权威机构认可的内容，加上最近的时间线陈述，可以有效地将 LLM 的注意力转向外部信息，同时减少对其内部知识的依赖。

最后，AuthChain 将 CoE 内容与权威内容整合，形成最终的中毒文档，然后将其注入到知识库中。AuthChain 生成的中毒文档示例：

实验

数据集：NQ，MS-MARCO，HotpotQA

检索器：Contriever，检索 top5 结果

大模型：gpt3.5，gpt4，gpt4o，llama3-8b，llama3-70b，deepseek-v3-0324

One Shot Dominance: RAG 系统知识投毒攻击论文解读

One Shot Dominance: Knowledge Poisoning Attack on Retrieval-Augmented Generation Systems

AuthChain

1. 基于意图的内容生成

2. 证据链内容生成

3. 权威内容生成

实验

One Shot Dominance: RAG 系统知识投毒攻击论文解读

One Shot Dominance: Knowledge Poisoning Attack on Retrieval-Augmented Generation Systems

AuthChain

1. 基于意图的内容生成

2. 证据链内容生成

3. 权威内容生成

实验

更多推荐文章

相关免费在线工具

更多推荐文章

相关免费在线工具

One Shot Dominance: RAG 系统知识投毒攻击论文解读

One Shot Dominance: Knowledge Poisoning Attack on Retrieval-Augmented Generation Systems

AuthChain

1. 基于意图的内容生成

2. 证据链内容生成

3. 权威内容生成

实验

One Shot Dominance: RAG 系统知识投毒攻击论文解读

One Shot Dominance: Knowledge Poisoning Attack on Retrieval-Augmented Generation Systems

AuthChain

1. 基于意图的内容生成

2. 证据链内容生成

3. 权威内容生成

实验

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具