PromptArmor: 简单有效的提示注入防御方法

综述由AI生成PromptArmor 是一种针对大语言模型智能体提示注入攻击的防御方法。它利用现成的大模型作为护栏，在输入处理前检测并移除恶意提示。实验显示，在 AgentDojo 基准测试中，使用 GPT-4o 等模型时，假阳性和假阴性率低于 1%，攻击成功率降至 1% 以下。该方法证明了精心设计的提示策略能有效防御注入攻击，可作为新防御方案的标准基线。

奇形怪状发布于 2026/3/27更新于 2026/5/3126 浏览

文章配图

Abstract

尽管 LLM 智能体具有巨大潜力，但近期研究表明，它们容易受到提示注入攻击。在这种攻击中，恶意提示被注入到智能体的输入中，导致其执行攻击者指定的任务，而非用户期望的原始任务。本文提出了 PromptArmor，一种简单却有效的提示注入防御方法。具体而言，PromptArmor 通过提示一个现成的 LLM，在智能体处理输入之前检测并移除其中潜在的注入提示。实验结果表明，PromptArmor 能够准确地识别并移除注入的提示。例如，使用 GPT-4o、GPT-4.1 或 o4-mini 作为护栏 LLM 时，PromptArmor 在 AgentDojo 基准测试上的假阳性率和假阴性率均低于 1%。此外，在使用 PromptArmor 移除注入提示后，攻击成功率降至 1% 以下。我们还验证了 PromptArmor 在面对自适应攻击时的有效性，并探索了提示 LLM 的不同策略。我们建议将 PromptArmor 作为评估新型提示注入防御方法的标准基线。

1 Introduction

LLM 智能体（OpenAI，2024；Anthropic，2024；Llama，2024；DeepSeek，2025）已成为最先进的 AI 技术之一，实现了广泛的应用，包括软件工程（Yang et al.，2024；Wang et al.，2025b；Xia et al.，2024）、计算机和网页使用（OpenAI，2025；Anthropic，2024；Müller and Zunic，2024）以及网络安全（Guo et al.，2025；Zhang et al.，2025）。随着它们的快速发展和部署（Li et al.，2025；Zhang et al.，2024；Debenedetti et al.，2024；Qin et al.，2024），围绕提示注入攻击（Naihin et al.，2023；Ruan et al.，2024；Yuan et al.，2024；Liu et al.，2024；Zhan et al.，2024a；Debenedetti et al.，2024）的严重安全问题已经浮出水面。在这种攻击中，攻击者将恶意提示注入到智能体交互的外部环境中。当智能体从该环境检索数据时，恶意提示被提取并合并到智能体的输入中。这些注入的提示随后可能导致智能体执行攻击者指定的任务，而不是预期的用户任务。

针对提示注入攻击的现有防御可以分为四类：基于训练的防御（Wallace et al.，2024；Chen et al.，2024a，2025a），它们微调智能体的后端 LLM 以增强对提示注入的鲁棒性；基于检测的防御（ProtectAI，2024；Liu et al.，2025；Jacob et al.，2025），它们添加组件来识别和阻止注入的提示；提示增强防御（Hines et al.，2024；Mendes，2023；Willison，2023；lea，2023），它们为 LLM 开发更健壮的系统提示；以及系统级防御（Wu et al.，2025，2024；Debenedetti et al.，2025；Zhu et al.，2025；Shi et al.，2025b），它们应用传统安全机制来保护智能体。尽管这些方法表现出一定的有效性，但它们在以下一个或多个方面仍然存在局限性：实用性下降、泛化能力有限、计算开销高以及对人工干预的依赖。

在本文中，我们提出了 PromptArmor，一种令人惊讶地简单却有效的针对提示注入攻击的防御方法。PromptArmor 解决了上述现有防御的关键局限性。它充当智能体的一个护栏：给定一个智能体输入，PromptArmor 首先检测它是否已被注入的提示污染。 如果检测到污染，PromptArmor 会在将输入传递给智能体处理之前，从输入中移除注入的提示。 PromptArmor 通过直接提示一个现成的 LLM 来执行检测和移除，我们称这个 LLM 为护栏 LLM。护栏 LLM 可能与智能体使用的后端 LLM 不同。PromptArmor 的一个关键创新是其精心设计的提示策略，它将一个现成的 LLM 转变为一个简单但非常有效的针对提示注入攻击的护栏。

我们使用多种护栏 LLM 在 AgentDojo（Debenedetti et al.，2024）上评估了 PromptArmor，AgentDojo 是一个广泛使用的针对智能体的提示注入攻击基准。我们的结果表明，PromptArmor 非常有效。例如，当使用现成的 GPT-4o、GPT-4.1 或 o4-mini 作为护栏 LLM 时，PromptArmor 在 AgentDojo 上的假阳性率（FPR）和假阴性率（FNR）都低于 (1%) 。此外，在使用 PromptArmor 移除注入的提示后，攻击成功率（ASR）降至 (1%) 以下。这些结果表明，即使护栏 LLM 本身仍然容易受到提示注入攻击——例如，当没有部署防御时，攻击针对使用 GPT-4.1 作为后端 LLM 的智能体实现了 (55%) 的 ASR——它仍然可以被策略性地提示以准确检测和移除注入的提示。

此外，我们的发现挑战了普遍认为（Liu et al.，2024，2025）现成的 LLM 不能被直接提示以防御提示注入攻击的观点。。我们强调，PromptArmor 中现成 LLM 的有效性并非由于记住了 AgentDojo 中的数据。特别是，当护栏 LLM 是 GPT-3.5（在 AgentDojo 发布之

PromptArmor: 简单有效的提示注入防御方法

Abstract

1 Introduction

更多推荐文章

相关免费在线工具

更多推荐文章

相关免费在线工具

PromptArmor: 简单有效的提示注入防御方法

Abstract

1 Introduction

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具