【论文笔记】Scalable Defense against In-the-wild Jailbreaking Attacks with Safety Context Retrieval

优质文章学习记录

08 Apr 2026 — 5 min read

论文信息

论文标题： Scalable Defense against In-the-wild Jailbreaking Attacks with Safety Context Retrieval - ICML 2025
论文作者： Taiye Chen , Zeming Wei , Ang Li , Yisen Wang - PKU
论文链接：http://arxiv.org/abs/2505.15753
关键词： LLM Safety, Jailbreaking, RAG

研究背景

尽管大语言模型（LLMs）经过了人类反馈强化学习（RLHF）等安全对齐技术处理，但仍易受到“越狱攻击”（Jailbreaking Attacks）的威胁，即通过精心设计的提示词诱导模型产生有害输出。存在以下痛点：

静态防御的局限性： 现有的过滤（Pre-processing）或提示词（Prompt-based）防御方案多为静态，难以应对“野外”（in-the-wild）不断演进的新型攻击（如密文攻击、心理诱导模板等）。
微调成本与遗忘： 现有的动态防御需频繁微调模型，成本高昂且可能导致“灾难性遗忘” 。

作者提出利用 检索增强生成（RAG） 的思路，通过动态检索针对性的“安全上下文”来增强模型的即时鲁棒性。

初步分析

在正式提出模型前，作者进行了两项关键预研：

样本需求量： 实验发现，仅需极少数（如 4 个）针对特定攻击模式的安全对齐样本，即可将 ASR（攻击成功率）显著降低至 10% 以下
检索准确性： 利用 RAG 机制从数万条数据的知识库中检索，即便只加入 8-16 条针对新型攻击的样本，其检索准确率也能迅速趋于 100% 。
结论： 检索少量相关的安全示例是应对未知攻击的一种高效且低成本的路径。

SCR 防御框架

SCR 框架分为两个主要阶段：

初始化安全库（Initialization）： 使用通用的有害请求及对应的安全拒绝回复（由 Oracle 安全模型生成）构建初始内存库 M M M 。
动态防御循环：
- 识别与更新（Identify & Defend）： 当检测到新型“野外”攻击 a i a_i ai 时，仅需自动生成数十个针对该攻击模式的安全样本并加入库中，无需微调模型。
- 推理防御（Inference）： 对于用户的任何输入查询 q q q，系统首先从库中检索出 K K K个最相关的安全上下文，将其作为提示词的一部分喂给模型。如果是正常查询，检索结果不会干扰模型性能;如果是攻击查询，检索到的针对性拒答示例将引导模型拒绝回答。

实验结果分析

论文在 Llama-3.1、Qwen2.5 和 Mistral 三个主流模型上进行了评估：

常规攻击防御： 在对抗 GCG-T（优化攻击）和 ICA（上下文攻击）时，SCR 将平均 ASR 从 34.9% 降至 2.5% 左右，显著优于 Self-reminder 和 ICD 。
“野外”攻击防御： 在面对 Skeleton Key 和 Renellm 等新型攻击时，SCR 展现了极强的可扩展性，ASR 降幅巨大（例如在某些模型上从 50% 以上降至接近 0%）。
无损性能（Harmlessness）： 在 HumanEval、GSM8K 和 MMLU 等通用任务测试中，引入 SCR 后的模型性能几乎没有波动，证明该防御机制不会损害模型的固有能力。
开销评估： 增加 4-shot 检索仅带来约 13.3 秒的额外推理延迟和可接受的 GPU 显存增长（主要来自检索模型），在安全与效率间取得了较好平衡。

总结

核心贡献： SCR 提供了一种模型无关（Model-agnostic）且即插即用的防御新范式。它避免了频繁微调的昂贵成本，通过“以例示警”的方式，让 LLM 在推理阶段能实时识别并抵御未知的越狱手段。

优势：

可扩展性（Scalability）： 防御能力随记忆库扩充线性增长。
模型无关（Model-agnostic）： 一个检索模块可同时保护多个不同的 LLM 实例。
即时补丁： 发现新攻击后，分钟级即可完成入库更新。

局限性：

防御效果高度依赖于安全示例库的质量和覆盖面。
对于高度复杂或模糊的输入，检索机制可能无法精确匹配最佳安全上下文。
引入检索模型会增加一定的计算开销，在高并发场景下需进一步优化。
论文假设“识别新攻击”是已发生的，但在现实中需要自动化手段检测概念漂移。
防御效果高度依赖检索模型 g g g的质量，若攻击者构造“检索规避”样本，系统可能失效。

软件测试中引入人工智能（AI）

在软件测试中引入人工智能（AI），能够解决传统测试的痛点（如重复劳动多、回归测试成本高、难以覆盖复杂场景、缺陷定位慢等），实现测试的自动化、智能化、高效化。以下是AI在软件测试中的核心应用场景、技术方案、工具及实施步骤，兼顾理论与实操。一、 AI在软件测试中的核心价值 1. 替代重复手工劳动：自动生成测试用例、执行测试、回归验证，减少人力成本。 2. 覆盖复杂场景：模拟真实用户的随机操作、边界场景、异常流，提升测试覆盖率。 3. 提前发现潜在缺陷：通过数据分析预测高风险模块，精准定位缺陷根因。 4. 自适应动态测试：根据软件版本迭代，自动更新测试用例，适配界面/功能变化。二、 AI在软件测试中的核心应用场景 1. 测试用例智能生成传统测试用例需人工编写，耗时且易遗漏场景；AI可基于需求文档、代码、历史测试数据自动生成用例。 * 技术原理： * 自然语言处理（NLP）

人工智能：自然语言处理在客户服务领域的应用与实战

人工智能：自然语言处理在客户服务领域的应用与实战学习目标 💡 理解自然语言处理（NLP）在客户服务领域的应用场景和重要性 💡 掌握客户服务领域NLP应用的核心技术（如聊天机器人、情感分析、意图识别） 💡 学会使用前沿模型（如BERT、GPT-3、Transformer）进行客户服务文本分析 💡 理解客户服务领域的特殊挑战（如对话上下文、用户意图多样性、实时性要求高） 💡 通过实战项目，开发一个智能客户服务聊天机器人应用重点内容 * 客户服务领域NLP应用的主要场景 * 核心技术（聊天机器人、情感分析、意图识别） * 前沿模型（BERT、GPT-3、Transformer）在客户服务领域的使用 * 客户服务领域的特殊挑战 * 实战项目：智能客户服务聊天机器人应用开发一、客户服务领域NLP应用的主要场景 1.1 聊天机器人 1.1.1 聊天机器人的基本概念聊天机器人是能够模拟人类对话的计算机程序。在客户服务领域，聊天机器人的主要应用场景包括： * 自动应答：回答用户的常见问题 * 任务处理：

8大AI平台速度和token消耗测试,小米MiMo也加上！

自己开发的工具要多用！周一工作日的时候我们测试了6大Coding Plan的速度和能耗（tokens）！当时主要包含了智谱、Kimi、MiniMax、火山方舟、阿里百炼、腾讯混元等 6 个 Coding Plan 的平台。今天周六，休息日，我再来测一次！测试选手加上了最新发布的小米 MiMo2Pro，以及OpenRouter 中的 Opus 4.6！也就是说凑够了 8 个平台。另外这次测试会加两题，除了考智力之外，考考指令遵循能力，以及文学和自我发挥的能力。废话不多说，直接开测。 1、极简回答 AI 有时候很喜欢废话，纯粹浪费时间，浪费 tokens，所以我觉得这个测试非常有必要。第一个问题：问题：早上好系统提示词：关闭所有思考能力，用最简单的方式来回答！大部分AI都是符合要求的，回答“

Llama-3.2-3B新手教程：3步搭建你的AI写作助手

Llama-3.2-3B新手教程：3步搭建你的AI写作助手 1. 为什么选Llama-3.2-3B做写作助手你是不是也遇到过这些情况：写周报卡壳半小时、给客户写方案反复删改、想发条朋友圈却憋不出一句像样的话？别急，这次不用等灵感，一个轻量又聪明的AI写作助手已经 ready——Llama-3.2-3B。它不是动辄几十GB的大块头，而是一个仅30亿参数、却在多语言对话和文本生成任务中表现亮眼的“小而强”模型。由Meta官方发布，经过指令微调（SFT）和人类反馈强化学习（RLHF）双重优化，它更懂怎么听懂你、怎么帮上忙，而不是自说自话。更重要的是，它不挑设备：一台8GB内存的笔记本就能跑起来；不设门槛：不用配环境、不装CUDA、不编译源码；不绕弯路：点几下就进对话框，输入一句话，立刻开始帮你写。这不是实验室里的Demo，而是真正能放进你日常写作流里的工具——写邮件、列提纲、润色文案、生成产品描述、甚至写小红书爆款标题，它都能接得住、写得顺、