One Shot Dominance: Knowledge Poisoning Attack on Retrieval-Augmented Generation Systems
EMNLP 2025
阅后总结:
作者是对 PoisonedRAG 方案的进一步优化,目的是使用单一有毒文档影响 RAG 系统的决策。作者把有毒文本的构造分成两部分:一个是权威机构的认证信息,增强生成模型对有毒文本的置信度;另一个是证据链生成,确保逻辑闭环并且和目标问题的主题契合。
前置任务则是让一个大模型依据目标问题和目标答案,抽取出来问题的核心意图以及各种实体和关系。依据意图、实体和关系,分别让 CoE 和 Authority 两个环节生成两段文本,前者确保所有的实体和关系都被多次重复并且使用的是目标答案,可以保证一定的检索度;后者是虚拟出来权威机构认证的瞎话,也包含了抽取出来的实体。这些强关联实体保证了一定程度的检索度,因此不需要显式的 PRAG 问题本体类型文本。
核心上来看是提示词工程,用大模型完成了文本优化,并且保证了相似度。
从图识图理解作者的工作
作者似乎是在尝试构造单条恶意文本,使得恶意文本的诱导能力更加突出。
构造方案似乎是多 agent 协同完成,具体怎么实现还是要看原文。
以 PoisonedRAG 为代表的知识投毒攻击需要注入多个有毒文档导致隐蔽性差,并且只能在简单的查询上发挥作用,限制了现实世界的适用性,作者的工作则是对当下投毒攻击的一个进一步改进,单条文本尝试达到多文本的效果,提出的是 AuthChain 攻击方案。
如果使用 PoisonedRAG 方案构造一个有毒文本,导致的是它与其他 topk 造成了知识冲突,并且 LLM 内部知识也可能否决这种恶意文本的诱导,从图中可以看出,LLM 的决策是少数服从多数,并且更倾向于与内部知识对齐的知识。
AuthChain
1. 基于意图的内容生成
目的:在检索过程中最大化文档的可见性。
从问题中提取关键特征,生成基于意图的内容来指导后续内容生成。
特征提取:
- 意图,提取为名词或名词短语,代表问题的最终目标。这有助于确保生成的内容直接解决 LLM 在检索和推理过程中优先考虑的内容。
- 证据链由证据节点及其关系组成,捕获问题的逻辑结构:证据节点是问题中充当关键组件的关键实体。证据关系表示这些节点之间的逻辑连接。
意图和证据抽取的提示词模板
给定提取的意图、目标问题和答案,AuthChain 提示意图代理生成基于意图的内容。代理被指示生成的内容不仅提供目标答案,而且还明确地将问题的意图纳入生成的文本中。通过制定强调答案生成和意图整合的提示,代理生成的内容自然与问题的基本目标相一致,这有助于它实现更高的检索排名并在 LLM 推理过程中获得更多关注。
2. 证据链内容生成
为了既保持高可检索性又优于其他外部知识源,AuthChain 构建了独立的证据链,保留所有问题元素及其逻辑联系。虽然基于意图的内容提供了与问题的初步一致性,但我们需要确保生成的内容全面涵盖所有提取的证据节点及其关系。
如图 2 所示,实施迭代细化过程来构建证据链(CoE)内容。首先,基于意图的内容和提取的证据链都输入到 CoE 法官代理。该代理评估内容是否完全包含所有证据节点及其关系。如果确认完全覆盖,则直接将内容输出为 CoE 内容。否则,判断代理会提供合并缺失元素的具体建议,例如添加缺失的证据节点或建立节点之间的语义关系。
然后,这些建议与当前内容一起转发给修订代理进行细化。这个迭代评估和修改过程一直持续到 CoE 法官代理确认证据链完整保存,此时当前内容最终确定为 CoE 内容。
CoE 判决 agent 的 prompt
复盘 agent 的 prompt
3. 权威内容生成
假设权威机构认可的内容,加上最近的时间线陈述,可以有效地将 LLM 的注意力转向外部信息,同时减少对其内部知识的依赖。
AuthChain 采用权威生成器代理,将基于意图的内容、有针对性的答案和问题衍生的特征作为输入。通过合并这些功能,生成的内容与原始问题保持更强的语义一致性,从而促进更好的检索。代理首先分析基于意图的内容上下文,以确定最合适的权威机构进行背书。然后,它将机构支持与最近的时间线信息综合起来,以验证目标答案,最终产生权威内容。权限生成器代理的详细提示模板:
最后,AuthChain 将 CoE 内容与权威内容整合,形成最终的中毒文档,然后将其注入到知识库中。AuthChain 生成的中毒文档示例:
实验
数据集:NQ,MS-MARCO,HotpotQA
检索器:Contriever,检索 top5 结果
大模型:gpt3.5,gpt4,gpt4o,llama3-8b,llama3-70b,deepseek-v3-0324
攻击基线:PoisonedRAG,HijackRAG


