【论文笔记】Scalable Defense against In-the-wild Jailbreaking Attacks with Safety Context Retrieval

优质文章学习记录

10 Apr 2026 — 5 min read

论文信息

论文标题： Scalable Defense against In-the-wild Jailbreaking Attacks with Safety Context Retrieval - ICML 2025
论文作者： Taiye Chen , Zeming Wei , Ang Li , Yisen Wang - PKU
论文链接：http://arxiv.org/abs/2505.15753
关键词： LLM Safety, Jailbreaking, RAG

研究背景

尽管大语言模型（LLMs）经过了人类反馈强化学习（RLHF）等安全对齐技术处理，但仍易受到“越狱攻击”（Jailbreaking Attacks）的威胁，即通过精心设计的提示词诱导模型产生有害输出。存在以下痛点：

静态防御的局限性： 现有的过滤（Pre-processing）或提示词（Prompt-based）防御方案多为静态，难以应对“野外”（in-the-wild）不断演进的新型攻击（如密文攻击、心理诱导模板等）。
微调成本与遗忘： 现有的动态防御需频繁微调模型，成本高昂且可能导致“灾难性遗忘” 。

作者提出利用 检索增强生成（RAG） 的思路，通过动态检索针对性的“安全上下文”来增强模型的即时鲁棒性。

初步分析

在正式提出模型前，作者进行了两项关键预研：

样本需求量： 实验发现，仅需极少数（如 4 个）针对特定攻击模式的安全对齐样本，即可将 ASR（攻击成功率）显著降低至 10% 以下
检索准确性： 利用 RAG 机制从数万条数据的知识库中检索，即便只加入 8-16 条针对新型攻击的样本，其检索准确率也能迅速趋于 100% 。
结论： 检索少量相关的安全示例是应对未知攻击的一种高效且低成本的路径。

SCR 防御框架

SCR 框架分为两个主要阶段：

初始化安全库（Initialization）： 使用通用的有害请求及对应的安全拒绝回复（由 Oracle 安全模型生成）构建初始内存库 M M M 。
动态防御循环：
- 识别与更新（Identify & Defend）： 当检测到新型“野外”攻击 a i a_i ai 时，仅需自动生成数十个针对该攻击模式的安全样本并加入库中，无需微调模型。
- 推理防御（Inference）： 对于用户的任何输入查询 q q q，系统首先从库中检索出 K K K个最相关的安全上下文，将其作为提示词的一部分喂给模型。如果是正常查询，检索结果不会干扰模型性能;如果是攻击查询，检索到的针对性拒答示例将引导模型拒绝回答。

实验结果分析

论文在 Llama-3.1、Qwen2.5 和 Mistral 三个主流模型上进行了评估：

常规攻击防御： 在对抗 GCG-T（优化攻击）和 ICA（上下文攻击）时，SCR 将平均 ASR 从 34.9% 降至 2.5% 左右，显著优于 Self-reminder 和 ICD 。
“野外”攻击防御： 在面对 Skeleton Key 和 Renellm 等新型攻击时，SCR 展现了极强的可扩展性，ASR 降幅巨大（例如在某些模型上从 50% 以上降至接近 0%）。
无损性能（Harmlessness）： 在 HumanEval、GSM8K 和 MMLU 等通用任务测试中，引入 SCR 后的模型性能几乎没有波动，证明该防御机制不会损害模型的固有能力。
开销评估： 增加 4-shot 检索仅带来约 13.3 秒的额外推理延迟和可接受的 GPU 显存增长（主要来自检索模型），在安全与效率间取得了较好平衡。

总结

核心贡献： SCR 提供了一种模型无关（Model-agnostic）且即插即用的防御新范式。它避免了频繁微调的昂贵成本，通过“以例示警”的方式，让 LLM 在推理阶段能实时识别并抵御未知的越狱手段。

优势：

可扩展性（Scalability）： 防御能力随记忆库扩充线性增长。
模型无关（Model-agnostic）： 一个检索模块可同时保护多个不同的 LLM 实例。
即时补丁： 发现新攻击后，分钟级即可完成入库更新。

局限性：

防御效果高度依赖于安全示例库的质量和覆盖面。
对于高度复杂或模糊的输入，检索机制可能无法精确匹配最佳安全上下文。
引入检索模型会增加一定的计算开销，在高并发场景下需进一步优化。
论文假设“识别新攻击”是已发生的，但在现实中需要自动化手段检测概念漂移。
防御效果高度依赖检索模型 g g g的质量，若攻击者构造“检索规避”样本，系统可能失效。

Node.js Web Streams API实战简化流处理

💓 博客主页：瑕疵的ZEEKLOG主页📝 Gitee主页：瑕疵的gitee主页⏩ 文章专栏：《热点资讯》 Node.js Web Streams API实战：简化流处理的革命性实践目录 * Node.js Web Streams API实战：简化流处理的革命性实践 * 引言：流处理的困境与破局点 * 一、为什么Web Streams API是流处理的“破壁者”？ * 传统流处理的三大痛点 * Web Streams API的核心优势 * 二、实战：从复杂到优雅的代码演进 * 场景：文件内容转换（CSV → JSON） * 传统方案（`stream`模块）：15行+的“地狱代码” * Web Streams方案：5行代码的优雅实现 * 三、场景深化：Web Streams的跨界价值

Obsidian同步太折腾？试试坚果云官方插件：免WebDAV配置，支持Git级冲突合并

Obsidian 作为本地 Markdown 笔记软件的王者，其“数据掌握在自己手中”的理念深受开发者喜爱。但作为一名多端用户，同步问题一直是最大的痛点。官方 Sync 服务太贵，WebDAV 配置繁琐且不仅容易断连，还经常遇到笔记冲突。终于，大家催了无数遍的 Obsidian x 坚果云「官方同步插件 Nutstore Sync」正式上架社区插件市场了！这不仅仅是一个同步工具，更是一套完整的移动端解决方案。为什么推荐这款官方插件？ 1. 告别复杂的 WebDAV 配置（SSO单点登录）以前配置 WebDAV，你需要生成应用密码、复制服务器地址、担心端口被封。现在，安装 Nutstore Sync 后，直接点击“登录”，通过单点登录授权，一键回调到 Obsidian，配置过程缩短到秒级，新手极其友好。

Windows软件安装报错？3分钟搞定Webview2和.NET4.8缺失问题（附C盘权限获取技巧）

Windows软件安装报错终极指南：从Webview2到.NET4.8的完整解决方案每次安装新软件时遇到"缺少Webview2 Runtime"或".NET Framework 4.8未安装"的报错提示，是不是让你感到无比烦躁？这些看似复杂的系统组件缺失问题，其实都有简单直接的解决方法。本文将带你一步步彻底解决这些安装障碍，同时分享几个鲜为人知的C盘权限管理技巧，让你的软件安装过程从此畅通无阻。 1. 理解核心组件：Webview2和.NET4.8为何如此重要现代Windows软件越来越依赖这些基础运行环境。Microsoft Edge WebView2是一个嵌入式浏览器组件，允许应用程序显示网页内容，而.NET Framework 4.8则是微软开发的软件开发平台，许多程序都基于它构建。当你的系统缺少这些组件时，就像试图在没有地基的房子上盖楼——注定会失败。常见症状包括： * "Microsoft Edge WebView2 Runtime未安装"错误提示

基于Java Web的毕业设计选题系统设计与实现：新手入门实战指南

每到毕业季，高校的毕业设计选题环节总是让管理员和学生们头疼不已。传统的线下或简单线上流程，常常暴露出几个典型问题：系统一开放，学生们蜂拥而至，经常出现“秒杀”式的竞争，导致服务器卡顿甚至崩溃；好不容易选上了，却可能因为网络延迟或并发问题，出现“一题多选”或“超选”的数据混乱；老师和学生之间的信息不通畅，选题状态不透明，沟通成本极高。这些问题背后，其实都指向了系统在并发控制、数据一致性和用户体验上的缺失。作为一个Java Web的初学者，要独立解决这些问题似乎很有挑战。但别担心，我们可以通过一个结构清晰、技术栈成熟的项目来逐一攻克。下面，我就结合自己搭建“毕业设计选题系统”的实战经验，从零开始，带你走一遍核心的设计与实现思路。 1. 为什么选择 Spring Boot + MyBatis？在开始敲代码之前，技术选型是第一步。Java Web的框架组合很多，比如经典的SSH、SSM，还有新兴的Spring Boot搭配JPA或MyBatis-Plus。对于新手来说，我强烈推荐