【论文笔记】Scalable Defense against In-the-wild Jailbreaking Attacks with Safety Context Retrieval

论文信息

论文标题: Scalable Defense against In-the-wild Jailbreaking Attacks with Safety Context Retrieval - ICML 2025
论文作者: Taiye Chen , Zeming Wei , Ang Li , Yisen Wang - PKU
论文链接:http://arxiv.org/abs/2505.15753
关键词: LLM Safety, Jailbreaking, RAG


研究背景

尽管大语言模型(LLMs)经过了人类反馈强化学习(RLHF)等安全对齐技术处理,但仍易受到“越狱攻击”(Jailbreaking Attacks)的威胁,即通过精心设计的提示词诱导模型产生有害输出。存在以下痛点:

  • 静态防御的局限性: 现有的过滤(Pre-processing)或提示词(Prompt-based)防御方案多为静态,难以应对“野外”(in-the-wild)不断演进的新型攻击(如密文攻击、心理诱导模板等)。
  • 微调成本与遗忘: 现有的动态防御需频繁微调模型,成本高昂且可能导致“灾难性遗忘” 。

作者提出利用 检索增强生成(RAG) 的思路,通过动态检索针对性的“安全上下文”来增强模型的即时鲁棒性 。


初步分析

在正式提出模型前,作者进行了两项关键预研:

  • 样本需求量: 实验发现,仅需极少数(如 4 个)针对特定攻击模式的安全对齐样本,即可将 ASR(攻击成功率)显著降低至 10% 以下
  • 检索准确性: 利用 RAG 机制从数万条数据的知识库中检索,即便只加入 8-16 条针对新型攻击的样本,其检索准确率也能迅速趋于 100% 。
  • 结论: 检索少量相关的安全示例是应对未知攻击的一种高效且低成本的路径 。
在这里插入图片描述

SCR 防御框架

SCR 框架分为两个主要阶段:

  1. 初始化安全库 (Initialization): 使用通用的有害请求及对应的安全拒绝回复(由 Oracle 安全模型生成)构建初始内存库 M M M 。
  2. 动态防御循环:
    • 识别与更新 (Identify & Defend): 当检测到新型“野外”攻击 a i a_i ai​ 时,仅需自动生成数十个针对该攻击模式的安全样本并加入库中,无需微调模型。
    • 推理防御 (Inference): 对于用户的任何输入查询 q q q,系统首先从库中检索出 K K K个最相关的安全上下文,将其作为提示词的一部分喂给模型。如果是正常查询,检索结果不会干扰模型性能;如果是攻击查询,检索到的针对性拒答示例将引导模型拒绝回答 。
在这里插入图片描述

实验结果分析

论文在 Llama-3.1、Qwen2.5 和 Mistral 三个主流模型上进行了评估:

  • 常规攻击防御: 在对抗 GCG-T(优化攻击)和 ICA(上下文攻击)时,SCR 将平均 ASR 从 34.9% 降至 2.5% 左右,显著优于 Self-reminder 和 ICD 。
  • “野外”攻击防御: 在面对 Skeleton Key 和 Renellm 等新型攻击时,SCR 展现了极强的可扩展性,ASR 降幅巨大(例如在某些模型上从 50% 以上降至接近 0%)。
  • 无损性能 (Harmlessness): 在 HumanEval、GSM8K 和 MMLU 等通用任务测试中,引入 SCR 后的模型性能几乎没有波动,证明该防御机制不会损害模型的固有能力 。
  • 开销评估: 增加 4-shot 检索仅带来约 13.3 秒的额外推理延迟和可接受的 GPU 显存增长(主要来自检索模型),在安全与效率间取得了较好平衡 。

总结

核心贡献: SCR 提供了一种模型无关(Model-agnostic)且即插即用的防御新范式 。它避免了频繁微调的昂贵成本,通过“以例示警”的方式,让 LLM 在推理阶段能实时识别并抵御未知的越狱手段 。

优势:

  • 可扩展性 (Scalability): 防御能力随记忆库扩充线性增长。
  • 模型无关 (Model-agnostic): 一个检索模块可同时保护多个不同的 LLM 实例。
  • 即时补丁: 发现新攻击后,分钟级即可完成入库更新。

局限性:

  • 防御效果高度依赖于安全示例库的质量和覆盖面。
  • 对于高度复杂或模糊的输入,检索机制可能无法精确匹配最佳安全上下文。
  • 引入检索模型会增加一定的计算开销,在高并发场景下需进一步优化。
  • 论文假设“识别新攻击”是已发生的,但在现实中需要自动化手段检测概念漂移。
  • 防御效果高度依赖检索模型 g g g的质量,若攻击者构造“检索规避”样本,系统可能失效。

Read more

机器人笔记——轨迹规划

机器人笔记——轨迹规划

前言 之前的文章讲过到了关节是持续运动的,雅可比矩阵正是描述关节运动与机器人末端运动映射关系的有力工具。然而有了如何映射的工具仅仅是分析机器人运动的开始,要知道空间两点间的运动轨迹是多样的,因此就产生了轨迹规划的概念。这里讲的轨迹规划可以理解为寻求最优路径的过程,下文对其展开介绍。  前序内容 * 机构自由度的计算 * 齐次变换与齐次变换矩阵的计算 * 机器人正运动学——学习笔记 * 机器人正运动学实例——PUMA560机械臂(附Matlab机器人工具箱建模代码) * 机器人逆运动学——以六自由度机器人为例(详解、易懂,附全部Matlab代码) * 双平行四边形码垛机械臂的运动学正逆解——简化方法(附完整Matlab代码、解析过程) * 机器人笔记——关于atan2与atan的区别 * 雅可比矩阵——机器人笔记(简化、易懂) 1. 什么是机器人轨迹规划? 想要解答这个问题,我们先来看什么是轨迹。 轨迹:就是机器人手臂(末端点或操作点)的位置、速度、加速度对于时间的历程; 我们在意的其实是,机器人末端轨迹对于工件的状态或相对关系,就像下面右侧图一样

FPGA 工程师到底有哪些方向?每个岗位都在干什么?一篇给你讲清楚

FPGA 工程师到底有哪些方向?每个岗位都在干什么?一篇给你讲清楚

很多人说“学 FPGA 就是写 Verilog”,但真正进了行业才发现—— FPGA 工程师并不是一个岗位,而是一整个岗位族群。 不同公司、不同项目,对 FPGA 工程师的要求差异非常大。 如果方向选错,可能学了半年发现岗位根本不对口。 这篇文章就系统地给你拆一拆: 👉 FPGA 工程师到底有哪些岗位? 👉 每个岗位具体干什么? 👉 需要掌握哪些能力? 👉 适合什么样的人? 一、FPGA 工程师整体岗位划分(先给结论) 从企业招聘角度来看,FPGA 岗位大致可以分为 6 类: 岗位方向关键词偏向FPGA 逻辑设计工程师Verilog / 时序 / 接口核心开发FPGA 算法 / 加速工程师图像 / AI / DSP算法落地FPGA 底层驱动工程师DDR / PCIe / SerDes硬件接口FPGA 系统应用工程师Linux + FPGA系统集成FPGA 验证 / 测试仿真 / 验证质量保障FPGA 技术支持 / FA客户 / 项目支持应用型

基于知识图谱的电影推荐问答系统 | Python Django框架 Neo4j 智能推荐与交互问答 大数据 人工智能 毕业设计源码(建议收藏)✅

基于知识图谱的电影推荐问答系统 | Python Django框架 Neo4j 智能推荐与交互问答 大数据 人工智能 毕业设计源码(建议收藏)✅

博主介绍:✌全网粉丝10W+,前互联网大厂软件研发、集结硕博英豪成立工作室。专注于计算机相关专业项目实战6年之久,选择我们就是选择放心、选择安心毕业✌ > 🍅想要获取完整文章或者源码,或者代做,拉到文章底部即可与我联系了。🍅 点击查看作者主页,了解更多项目! 🍅感兴趣的可以先收藏起来,点赞、关注不迷路,大家在毕设选题,项目以及论文编写等相关问题都可以给我留言咨询,希望帮助同学们顺利毕业 。🍅 1、毕业设计:2026年计算机专业毕业设计选题汇总(建议收藏)✅ 2、大数据毕业设计:2026年选题大全 深度学习 python语言 JAVA语言 hadoop和spark(建议收藏)✅ 1、项目介绍 技术栈 Python、Django框架、Neo4j图形数据库、Echarts可视化、HTML、协同过滤推荐算法、MySQL数据库 功能模块 * 电影知识图谱管理 * 电影问答交互 * 电影列表展示 * 个人信息查看 * 电影详情展示 * 用户注册登录 * 后台电影数据管理 项目介绍

Docker 安装 Neo4j 保姆级教程

Docker 安装 Neo4j 保姆级教程 本教程适用于零基础用户,详细讲解如何在 Windows 或 Linux 环境下通过 Docker 安装并配置 Neo4j 图数据库。 Neo4j 官方 Docker 文档 1. 环境准备 * 已安装 Docker(Docker Desktop 官网) * Linux 和 Windows 均可 2. 创建挂载目录 在宿主机上新建以下目录,用于数据持久化和配置挂载(以 Linux 为例,Windows 可用资源管理器新建文件夹): mkdir -p /home/neo4j/data /home/neo4j/logs /home/neo4j/conf /home/