【论文笔记】Scalable Defense against In-the-wild Jailbreaking Attacks with Safety Context Retrieval

优质文章学习记录

09 Apr 2026 — 5 min read

论文信息

论文标题： Scalable Defense against In-the-wild Jailbreaking Attacks with Safety Context Retrieval - ICML 2025
论文作者： Taiye Chen , Zeming Wei , Ang Li , Yisen Wang - PKU
论文链接：http://arxiv.org/abs/2505.15753
关键词： LLM Safety, Jailbreaking, RAG

研究背景

尽管大语言模型（LLMs）经过了人类反馈强化学习（RLHF）等安全对齐技术处理，但仍易受到“越狱攻击”（Jailbreaking Attacks）的威胁，即通过精心设计的提示词诱导模型产生有害输出。存在以下痛点：

静态防御的局限性： 现有的过滤（Pre-processing）或提示词（Prompt-based）防御方案多为静态，难以应对“野外”（in-the-wild）不断演进的新型攻击（如密文攻击、心理诱导模板等）。
微调成本与遗忘： 现有的动态防御需频繁微调模型，成本高昂且可能导致“灾难性遗忘” 。

作者提出利用 检索增强生成（RAG） 的思路，通过动态检索针对性的“安全上下文”来增强模型的即时鲁棒性。

初步分析

在正式提出模型前，作者进行了两项关键预研：

样本需求量： 实验发现，仅需极少数（如 4 个）针对特定攻击模式的安全对齐样本，即可将 ASR（攻击成功率）显著降低至 10% 以下
检索准确性： 利用 RAG 机制从数万条数据的知识库中检索，即便只加入 8-16 条针对新型攻击的样本，其检索准确率也能迅速趋于 100% 。
结论： 检索少量相关的安全示例是应对未知攻击的一种高效且低成本的路径。

SCR 防御框架

SCR 框架分为两个主要阶段：

初始化安全库（Initialization）： 使用通用的有害请求及对应的安全拒绝回复（由 Oracle 安全模型生成）构建初始内存库 M M M 。
动态防御循环：
- 识别与更新（Identify & Defend）： 当检测到新型“野外”攻击 a i a_i ai 时，仅需自动生成数十个针对该攻击模式的安全样本并加入库中，无需微调模型。
- 推理防御（Inference）： 对于用户的任何输入查询 q q q，系统首先从库中检索出 K K K个最相关的安全上下文，将其作为提示词的一部分喂给模型。如果是正常查询，检索结果不会干扰模型性能;如果是攻击查询，检索到的针对性拒答示例将引导模型拒绝回答。

实验结果分析

论文在 Llama-3.1、Qwen2.5 和 Mistral 三个主流模型上进行了评估：

常规攻击防御： 在对抗 GCG-T（优化攻击）和 ICA（上下文攻击）时，SCR 将平均 ASR 从 34.9% 降至 2.5% 左右，显著优于 Self-reminder 和 ICD 。
“野外”攻击防御： 在面对 Skeleton Key 和 Renellm 等新型攻击时，SCR 展现了极强的可扩展性，ASR 降幅巨大（例如在某些模型上从 50% 以上降至接近 0%）。
无损性能（Harmlessness）： 在 HumanEval、GSM8K 和 MMLU 等通用任务测试中，引入 SCR 后的模型性能几乎没有波动，证明该防御机制不会损害模型的固有能力。
开销评估： 增加 4-shot 检索仅带来约 13.3 秒的额外推理延迟和可接受的 GPU 显存增长（主要来自检索模型），在安全与效率间取得了较好平衡。

总结

核心贡献： SCR 提供了一种模型无关（Model-agnostic）且即插即用的防御新范式。它避免了频繁微调的昂贵成本，通过“以例示警”的方式，让 LLM 在推理阶段能实时识别并抵御未知的越狱手段。

优势：

可扩展性（Scalability）： 防御能力随记忆库扩充线性增长。
模型无关（Model-agnostic）： 一个检索模块可同时保护多个不同的 LLM 实例。
即时补丁： 发现新攻击后，分钟级即可完成入库更新。

局限性：

防御效果高度依赖于安全示例库的质量和覆盖面。
对于高度复杂或模糊的输入，检索机制可能无法精确匹配最佳安全上下文。
引入检索模型会增加一定的计算开销，在高并发场景下需进一步优化。
论文假设“识别新攻击”是已发生的，但在现实中需要自动化手段检测概念漂移。
防御效果高度依赖检索模型 g g g的质量，若攻击者构造“检索规避”样本，系统可能失效。

【AI 辅助开发系列】Visual Studio 中 GitHub Copilot 隐私设置：控制代码数据共享边界

Visual Studio 中 GitHub Copilot 的隐私设置概述 GitHub Copilot 在 Visual Studio 中的隐私设置允许用户控制代码片段与云端服务的共享方式，确保敏感数据或私有代码得到保护。以下为关键配置选项及操作方法。禁用代码片段共享在 Visual Studio 的设置中，导航至 GitHub Copilot 选项，关闭 “允许 GitHub 使用我的代码片段进行产品改进” 功能。此操作会阻止 Copilot 将本地代码发送至云端分析，但可能影响部分智能补全的准确性。启用本地数据处理模式部分场景下需完全禁止网络传输： 1. 在 Visual Studio 的工具 > 选项 > GitHub Copilot 中勾选 “仅限本地处理”。 2. 确保防火墙规则阻止 githubcopilotd.

探索 3 - RPS 并联机器人的奇妙仿真之旅

并联机器人，3-RPS机构运动仿真，三维仿真。 simscape，simulink，matlab。工作空间分析，运动分析。轨迹控制。在机器人的世界里，并联机器人以其独特的结构和出色的性能备受瞩目。今天咱就来唠唠 3 - RPS 机构的并联机器人，通过 MATLAB 中的 Simscape 和 Simulink 对其进行三维运动仿真，同时深入分析工作空间和运动特性，再探讨下轨迹控制的实现。一、3 - RPS 机构简介 3 - RPS 机构由三个 RPS 支链组成，R 代表转动副（Revolute joint），P 代表移动副（Prismatic joint），S 代表球面副（Spherical joint）。这种结构使得机器人在空间中具备多个自由度的运动能力，广泛应用于诸如精密定位、

ClawdBot行业方案：跨境电商独立站后台集成实时多语客服机器人

ClawdBot行业方案：跨境电商独立站后台集成实时多语客服机器人 1. 方案核心价值：让独立站真正“说”出全球语言做跨境电商独立站的朋友，有没有遇到过这些真实场景： * 凌晨三点，德国客户在产品页留言问“能否定制包装尺寸”，你还在睡觉，订单悄悄流失； * 巴西买家发来一张手写葡语发票截图，想确认付款是否到账，客服看不懂，只能反复截图找翻译； * 日本客户在WhatsApp里连发5条语音咨询退换货政策，团队没人会日语，沟通卡在第一句。这些问题背后，是一个被长期忽视的现实：独立站的“独立”，不该是语言的孤岛。 ClawdBot 不是又一个通用聊天机器人，而是一套专为跨境电商设计的「后台级多语客服中枢」——它不依赖公有云API，不上传用户对话，不绑定特定平台，而是像数据库或支付网关一样，作为可部署、可审计、可定制的基础设施，嵌入你的独立站技术栈。它解决的不是“能不能聊”，而是“能不能专业、安全、低成本地持续聊”。接下来，我们不讲概念，不堆参数，只聚焦一件事：如何用一套本地化部署的方案，把你的Shopify/

ManiSkill机器人模拟环境：从零开始的完整安装与实战指南

ManiSkill机器人模拟环境：从零开始的完整安装与实战指南【免费下载链接】ManiSkill 项目地址: https://gitcode.com/GitHub_Trending/ma/ManiSkill 在机器人学习领域，拥有一个功能强大且易于使用的模拟环境至关重要。ManiSkill作为业界领先的机器人操作模拟平台，为研究人员和开发者提供了丰富的任务场景和硬件支持。本文将带您深入了解如何在不同系统上快速安装和配置ManiSkill，并解决实际使用中可能遇到的各种问题。为什么选择ManiSkill？在深入安装细节之前，让我们先了解ManiSkill的核心优势： * 多任务场景覆盖：从简单的物体抓取到复杂的家居环境操作 * 多样化机器人支持：超过30种不同类型的机器人硬件 * 物理模拟精度：基于SAPIEN引擎的高质量物理仿真 * GPU加速支持：大幅提升训练和推理效率环境准备：系统要求详解在开始安装前，请确保您的系统满足以下基本要求：系统类型最低配置推荐配置Ubuntu 18.04+4GB RAM, 2GB GPU16GB RAM, 8G