【论文笔记】Scalable Defense against In-the-wild Jailbreaking Attacks with Safety Context Retrieval

论文信息

论文标题: Scalable Defense against In-the-wild Jailbreaking Attacks with Safety Context Retrieval - ICML 2025
论文作者: Taiye Chen , Zeming Wei , Ang Li , Yisen Wang - PKU
论文链接:http://arxiv.org/abs/2505.15753
关键词: LLM Safety, Jailbreaking, RAG


研究背景

尽管大语言模型(LLMs)经过了人类反馈强化学习(RLHF)等安全对齐技术处理,但仍易受到“越狱攻击”(Jailbreaking Attacks)的威胁,即通过精心设计的提示词诱导模型产生有害输出。存在以下痛点:

  • 静态防御的局限性: 现有的过滤(Pre-processing)或提示词(Prompt-based)防御方案多为静态,难以应对“野外”(in-the-wild)不断演进的新型攻击(如密文攻击、心理诱导模板等)。
  • 微调成本与遗忘: 现有的动态防御需频繁微调模型,成本高昂且可能导致“灾难性遗忘” 。

作者提出利用 检索增强生成(RAG) 的思路,通过动态检索针对性的“安全上下文”来增强模型的即时鲁棒性 。


初步分析

在正式提出模型前,作者进行了两项关键预研:

  • 样本需求量: 实验发现,仅需极少数(如 4 个)针对特定攻击模式的安全对齐样本,即可将 ASR(攻击成功率)显著降低至 10% 以下
  • 检索准确性: 利用 RAG 机制从数万条数据的知识库中检索,即便只加入 8-16 条针对新型攻击的样本,其检索准确率也能迅速趋于 100% 。
  • 结论: 检索少量相关的安全示例是应对未知攻击的一种高效且低成本的路径 。
在这里插入图片描述

SCR 防御框架

SCR 框架分为两个主要阶段:

  1. 初始化安全库 (Initialization): 使用通用的有害请求及对应的安全拒绝回复(由 Oracle 安全模型生成)构建初始内存库 M M M 。
  2. 动态防御循环:
    • 识别与更新 (Identify & Defend): 当检测到新型“野外”攻击 a i a_i ai​ 时,仅需自动生成数十个针对该攻击模式的安全样本并加入库中,无需微调模型。
    • 推理防御 (Inference): 对于用户的任何输入查询 q q q,系统首先从库中检索出 K K K个最相关的安全上下文,将其作为提示词的一部分喂给模型。如果是正常查询,检索结果不会干扰模型性能;如果是攻击查询,检索到的针对性拒答示例将引导模型拒绝回答 。
在这里插入图片描述

实验结果分析

论文在 Llama-3.1、Qwen2.5 和 Mistral 三个主流模型上进行了评估:

  • 常规攻击防御: 在对抗 GCG-T(优化攻击)和 ICA(上下文攻击)时,SCR 将平均 ASR 从 34.9% 降至 2.5% 左右,显著优于 Self-reminder 和 ICD 。
  • “野外”攻击防御: 在面对 Skeleton Key 和 Renellm 等新型攻击时,SCR 展现了极强的可扩展性,ASR 降幅巨大(例如在某些模型上从 50% 以上降至接近 0%)。
  • 无损性能 (Harmlessness): 在 HumanEval、GSM8K 和 MMLU 等通用任务测试中,引入 SCR 后的模型性能几乎没有波动,证明该防御机制不会损害模型的固有能力 。
  • 开销评估: 增加 4-shot 检索仅带来约 13.3 秒的额外推理延迟和可接受的 GPU 显存增长(主要来自检索模型),在安全与效率间取得了较好平衡 。

总结

核心贡献: SCR 提供了一种模型无关(Model-agnostic)且即插即用的防御新范式 。它避免了频繁微调的昂贵成本,通过“以例示警”的方式,让 LLM 在推理阶段能实时识别并抵御未知的越狱手段 。

优势:

  • 可扩展性 (Scalability): 防御能力随记忆库扩充线性增长。
  • 模型无关 (Model-agnostic): 一个检索模块可同时保护多个不同的 LLM 实例。
  • 即时补丁: 发现新攻击后,分钟级即可完成入库更新。

局限性:

  • 防御效果高度依赖于安全示例库的质量和覆盖面。
  • 对于高度复杂或模糊的输入,检索机制可能无法精确匹配最佳安全上下文。
  • 引入检索模型会增加一定的计算开销,在高并发场景下需进一步优化。
  • 论文假设“识别新攻击”是已发生的,但在现实中需要自动化手段检测概念漂移。
  • 防御效果高度依赖检索模型 g g g的质量,若攻击者构造“检索规避”样本,系统可能失效。

Read more

Swift Composable Architecture:从混乱状态到优雅解耦的架构革命

Swift Composable Architecture:从混乱状态到优雅解耦的架构革命 【免费下载链接】swift-composable-architecturepointfreeco/swift-composable-architecture: Swift Composable Architecture (SCA) 是一个基于Swift编写的函数式编程架构框架,旨在简化iOS、macOS、watchOS和tvOS应用中的业务逻辑管理和UI状态管理。 项目地址: https://gitcode.com/GitHub_Trending/sw/swift-composable-architecture 你是否曾经在SwiftUI项目中陷入这样的困境:状态散落在各个角落,异步操作让界面闪烁不定,测试覆盖率低得可怜?当应用从简单的计数器扩展到复杂的业务场景时,传统的状态管理模式往往成为技术债务的温床。今天,让我们一起探索Swift Composable Architecture(SCA)如何重新定义SwiftUI应用架构。 传统SwiftUI状态管理的三大困局 在深入SCA之前,

dify接入企业微信群聊机器人详细步骤(从零到上线全记录)

第一章:dify接入企业微信群聊机器人详细步骤(从零到上线全记录) 准备工作:获取企业微信机器人Webhook URL 在企业微信管理后台创建群聊机器人,获取唯一的 Webhook 地址。该地址用于外部系统向指定群组发送消息。登录企业微信 → 进入“应用管理” → 创建或选择一个自建应用 → 添加“群机器人”,复制生成的 Webhook URL。 配置Dify工作流触发外部通知 在 Dify 中设置自定义响应后处理逻辑,通过 HTTP 请求将输出内容推送到企业微信群。使用内置的“HTTP 请求”节点,填写以下参数: * Method: POST * URL: 企业微信机器人的 Webhook 地址 * Body (JSON): 包含要发送的消息内容 { "msgtype": "text", "text"

neo4j 5.26版本下载安装配置步骤

安装环境要求 操作系统:Windows 10/8/7、macOS 10.13或更高版本、Linux(Ubuntu、CentOS、Red Hat 等) JDK 17 或更高版本(Neo4j 5.26开始需要JDK 17或更高版本。如果您使用的是较旧的JDK版本,则需要升级到JDK 17或更高版本以运行Neo4j 5.26)64位操作系统 下载Neo4j 由于官方下载速度极慢,我已经把安装文件打包上传到网盘,直接下载即可: 下载地址:https://pan.quark.cn/s/0f2a99911586 下载配置JDK 推荐链接:https://blog.ZEEKLOG.net/ts5218/article/details/135252463 配置环境变量

HarukaBot完整部署指南:轻松搭建B站QQ推送机器人

HarukaBot完整部署指南:轻松搭建B站QQ推送机器人 【免费下载链接】HarukaBot将 B 站的动态和直播信息推送至 QQ,基于 NoneBot2 开发 项目地址: https://gitcode.com/gh_mirrors/ha/HarukaBot 想要在QQ群里第一时间获取B站UP主的直播开播提醒和最新动态吗?HarukaBot正是你需要的专属信息助手!这款基于NoneBot2框架开发的QQ机器人,专门为B站粉丝设计,让你不再错过任何精彩内容。 核心功能亮点解析 实时直播监控 HarukaBot能够实时监控B站UP主的直播状态,在10秒内捕捉到开播信号并立即推送到指定QQ群,确保群成员始终站在信息最前沿。 动态内容精准推送 当关注的UP主发布新作品或重要动态时,系统会自动抓取内容并生成高质量截图,完美复现B站网页端浏览体验,告别枯燥的纯文字信息。 智能权限管理 支持设置仅管理员可操作机器人,有效防止群内恶意刷屏和误操作,维护良好的群聊秩序。 实战部署全流程 环境准备与项目获取 确保你的服务器已安装Python 3.7及以上版本,这是运行H