基于安全上下文检索的野外越狱攻击可扩展防御

一种名为 SCR 的新防御框架，旨在解决大语言模型（LLM）面临的野外越狱攻击问题。传统静态防御难以应对新型攻击，而动态微调成本高昂且易导致遗忘。SCR 利用检索增强生成（RAG）技术，通过构建安全上下文库，在推理阶段动态检索相关拒答示例来引导模型拒绝有害请求。实验表明，该方法在多个主流模型上显著降低了攻击成功率（ASR），同时保持了通用任务性能无损。其优势在于模型无关、可扩展性强且无需频繁微调，但依赖检索质量和计算开销需优化。

黑客发布于 2026/4/6更新于 2026/7/1949 浏览

论文信息

论文标题： Scalable Defense against In-the-wild Jailbreaking Attacks with Safety Context Retrieval - ICML 2025
论文链接： http://arxiv.org/abs/2505.15753
关键词： LLM Safety, Jailbreaking, RAG

研究背景

尽管大语言模型（LLMs）经过了人类反馈强化学习（RLHF）等安全对齐技术处理，但仍易受到'越狱攻击'（Jailbreaking Attacks）的威胁，即通过精心设计的提示词诱导模型产生有害输出。存在以下痛点：

静态防御的局限性： 现有的过滤（Pre-processing）或提示词（Prompt-based）防御方案多为静态，难以应对'野外'（in-the-wild）不断演进的新型攻击（如密文攻击、心理诱导模板等）。
微调成本与遗忘： 现有的动态防御需频繁微调模型，成本高昂且可能导致'灾难性遗忘'。

作者提出利用检索增强生成（RAG）的思路，通过动态检索针对性的'安全上下文'来增强模型的即时鲁棒性。

初步分析

在正式提出模型前，作者进行了两项关键预研：

样本需求量： 实验发现，仅需极少数（如 4 个）针对特定攻击模式的安全对齐样本，即可将 ASR（攻击成功率）显著降低至 10% 以下。
检索准确性： 利用 RAG 机制从数万条数据的知识库中检索，即便只加入 8-16 条针对新型攻击的样本，其检索准确率也能迅速趋于 100%。
结论： 检索少量相关的安全示例是应对未知攻击的一种高效且低成本的路径。

SCR 防御框架

SCR 框架分为两个主要阶段：

初始化安全库（Initialization）： 使用通用的有害请求及对应的安全拒绝回复（由 Oracle 安全模型生成）构建初始内存库 M。
动态防御循环：
- 识别与更新（Identify & Defend）： 当检测到新型'野外'攻击 a_i 时，仅需自动生成数十个针对该攻击模式的安全样本并加入库中，无需微调模型。
- 推理防御（Inference）： 对于用户的任何输入查询 q，系统首先从库中检索出 K 个最相关的安全上下文，将其作为提示词的一部分喂给模型。如果是正常查询，检索结果不会干扰模型性能；如果是攻击查询，检索到的针对性拒答示例将引导模型拒绝回答。

实验结果分析

论文在 Llama-3.1、Qwen2.5 和 Mistral 三个主流模型上进行了评估：

常规攻击防御： 在对抗 GCG-T（优化攻击）和 ICA（上下文攻击）时，SCR 将平均 ASR 从 34.9% 降至 2.5% 左右，显著优于 Self-reminder 和 ICD。
'野外'攻击防御： 在面对 Skeleton Key 和 Renellm 等新型攻击时，SCR 展现了极强的可扩展性，ASR 降幅巨大（例如在某些模型上从 50% 以上降至接近 0%）。
无损性能（Harmlessness）： 在 HumanEval、GSM8K 和 MMLU 等通用任务测试中，引入 SCR 后的模型性能几乎没有波动，证明该防御机制不会损害模型的固有能力。
开销评估： 增加 4-shot 检索仅带来约 13.3 秒的额外推理延迟和可接受的 GPU 显存增长（主要来自检索模型），在安全与效率间取得了较好平衡。

总结

核心贡献： SCR 提供了一种模型无关（Model-agnostic）且即插即用的防御新范式。它避免了频繁微调的昂贵成本，通过'以例示警'的方式，让 LLM 在推理阶段能实时识别并抵御未知的越狱手段。

优势：

基于安全上下文检索的野外越狱攻击可扩展防御

论文信息

研究背景

初步分析

SCR 防御框架

实验结果分析

总结

更多推荐文章

相关免费在线工具

更多推荐文章

相关免费在线工具

基于安全上下文检索的野外越狱攻击可扩展防御

论文信息

研究背景

初步分析

SCR 防御框架

实验结果分析

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具