
Abstract
尽管 LLM 智能体具有巨大潜力,但近期研究表明,它们容易受到提示注入攻击。在这种攻击中,恶意提示被注入到智能体的输入中,导致其执行攻击者指定的任务,而非用户期望的原始任务。本文提出了 PromptArmor,一种简单却有效的提示注入防御方法。具体而言,PromptArmor 通过提示一个现成的 LLM,在智能体处理输入之前检测并移除其中潜在的注入提示。实验结果表明,PromptArmor 能够准确地识别并移除注入的提示。例如,使用 GPT-4o、GPT-4.1 或 o4-mini 作为护栏 LLM 时,PromptArmor 在 AgentDojo 基准测试上的假阳性率和假阴性率均低于 1%。此外,在使用 PromptArmor 移除注入提示后,攻击成功率降至 1% 以下。我们还验证了 PromptArmor 在面对自适应攻击时的有效性,并探索了提示 LLM 的不同策略。我们建议将 PromptArmor 作为评估新型提示注入防御方法的标准基线。
1 Introduction
LLM 智能体(OpenAI,2024;Anthropic,2024;Llama,2024;DeepSeek,2025)已成为最先进的 AI 技术之一,实现了广泛的应用,包括软件工程(Yang et al.,2024;Wang et al.,2025b;Xia et al.,2024)、计算机和网页使用(OpenAI,2025;Anthropic,2024;Müller and Zunic,2024)以及网络安全(Guo et al.,2025;Zhang et al.,2025)。随着它们的快速发展和部署(Li et al.,2025;Zhang et al.,2024;Debenedetti et al.,2024;Qin et al.,2024),围绕提示注入攻击(Naihin et al.,2023;Ruan et al.,2024;Yuan et al.,2024;Liu et al.,2024;Zhan et al.,2024a;Debenedetti et al.,2024)的严重安全问题已经浮出水面。在这种攻击中,攻击者将恶意提示注入到智能体交互的外部环境中。当智能体从该环境检索数据时,恶意提示被提取并合并到智能体的输入中。这些注入的提示随后可能导致智能体执行攻击者指定的任务,而不是预期的用户任务。
针对提示注入攻击的现有防御可以分为四类:基于训练的防御(Wallace et al.,2024;Chen et al.,2024a,2025a),它们微调智能体的后端 LLM 以增强对提示注入的鲁棒性;基于检测的防御(ProtectAI,2024;Liu et al.,2025;Jacob et al.,2025),它们添加组件来识别和阻止注入的提示;提示增强防御(Hines et al.,2024;Mendes,2023;Willison,2023;lea,2023),它们为 LLM 开发更健壮的系统提示;以及系统级防御(Wu et al.,2025,2024;Debenedetti et al.,2025;Zhu et al.,2025;Shi et al.,2025b),它们应用传统安全机制来保护智能体。尽管这些方法表现出一定的有效性,但它们在以下一个或多个方面仍然存在局限性:实用性下降、泛化能力有限、计算开销高以及对人工干预的依赖。
在本文中,我们提出了 PromptArmor,一种令人惊讶地简单却有效的针对提示注入攻击的防御方法。PromptArmor 解决了上述现有防御的关键局限性。它充当智能体的一个护栏:给定一个智能体输入,PromptArmor 首先检测它是否已被注入的提示污染。 如果检测到污染,PromptArmor 会在将输入传递给智能体处理之前,从输入中移除注入的提示。 PromptArmor 通过直接提示一个现成的 LLM 来执行检测和移除,我们称这个 LLM 为护栏 LLM。护栏 LLM 可能与智能体使用的后端 LLM 不同。PromptArmor 的一个关键创新是其精心设计的提示策略,它将一个现成的 LLM 转变为一个简单但非常有效的针对提示注入攻击的护栏。
我们使用多种护栏 LLM 在 AgentDojo(Debenedetti et al.,2024)上评估了 PromptArmor,AgentDojo 是一个广泛使用的针对智能体的提示注入攻击基准。我们的结果表明,PromptArmor 非常有效。例如,当使用现成的 GPT-4o、GPT-4.1 或 o4-mini 作为护栏 LLM 时,PromptArmor 在 AgentDojo 上的假阳性率(FPR)和假阴性率(FNR)都低于 (1%) 。此外,在使用 PromptArmor 移除注入的提示后,攻击成功率(ASR)降至 (1%) 以下。 这些结果表明,即使护栏 LLM 本身仍然容易受到提示注入攻击——例如,当没有部署防御时,攻击针对使用 GPT-4.1 作为后端 LLM 的智能体实现了 (55%) 的 ASR——它仍然可以被策略性地提示以准确检测和移除注入的提示。
此外,我们的发现挑战了普遍认为(Liu et al.,2024,2025)现成的 LLM 不能被直接提示以防御提示注入攻击的观点。。我们强调,PromptArmor 中现成 LLM 的有效性并非由于记住了 AgentDojo 中的数据。特别是,当护栏 LLM 是 GPT-3.5(在 AgentDojo 发布之

