【论文笔记】Scalable Defense against In-the-wild Jailbreaking Attacks with Safety Context Retrieval

优质文章学习记录

08 Apr 2026 — 5 min read

论文信息

论文标题： Scalable Defense against In-the-wild Jailbreaking Attacks with Safety Context Retrieval - ICML 2025
论文作者： Taiye Chen , Zeming Wei , Ang Li , Yisen Wang - PKU
论文链接：http://arxiv.org/abs/2505.15753
关键词： LLM Safety, Jailbreaking, RAG

研究背景

尽管大语言模型（LLMs）经过了人类反馈强化学习（RLHF）等安全对齐技术处理，但仍易受到“越狱攻击”（Jailbreaking Attacks）的威胁，即通过精心设计的提示词诱导模型产生有害输出。存在以下痛点：

静态防御的局限性： 现有的过滤（Pre-processing）或提示词（Prompt-based）防御方案多为静态，难以应对“野外”（in-the-wild）不断演进的新型攻击（如密文攻击、心理诱导模板等）。
微调成本与遗忘： 现有的动态防御需频繁微调模型，成本高昂且可能导致“灾难性遗忘” 。

作者提出利用 检索增强生成（RAG） 的思路，通过动态检索针对性的“安全上下文”来增强模型的即时鲁棒性。

初步分析

在正式提出模型前，作者进行了两项关键预研：

样本需求量： 实验发现，仅需极少数（如 4 个）针对特定攻击模式的安全对齐样本，即可将 ASR（攻击成功率）显著降低至 10% 以下
检索准确性： 利用 RAG 机制从数万条数据的知识库中检索，即便只加入 8-16 条针对新型攻击的样本，其检索准确率也能迅速趋于 100% 。
结论： 检索少量相关的安全示例是应对未知攻击的一种高效且低成本的路径。

SCR 防御框架

SCR 框架分为两个主要阶段：

初始化安全库（Initialization）： 使用通用的有害请求及对应的安全拒绝回复（由 Oracle 安全模型生成）构建初始内存库 M M M 。
动态防御循环：
- 识别与更新（Identify & Defend）： 当检测到新型“野外”攻击 a i a_i ai 时，仅需自动生成数十个针对该攻击模式的安全样本并加入库中，无需微调模型。
- 推理防御（Inference）： 对于用户的任何输入查询 q q q，系统首先从库中检索出 K K K个最相关的安全上下文，将其作为提示词的一部分喂给模型。如果是正常查询，检索结果不会干扰模型性能;如果是攻击查询，检索到的针对性拒答示例将引导模型拒绝回答。

实验结果分析

论文在 Llama-3.1、Qwen2.5 和 Mistral 三个主流模型上进行了评估：

常规攻击防御： 在对抗 GCG-T（优化攻击）和 ICA（上下文攻击）时，SCR 将平均 ASR 从 34.9% 降至 2.5% 左右，显著优于 Self-reminder 和 ICD 。
“野外”攻击防御： 在面对 Skeleton Key 和 Renellm 等新型攻击时，SCR 展现了极强的可扩展性，ASR 降幅巨大（例如在某些模型上从 50% 以上降至接近 0%）。
无损性能（Harmlessness）： 在 HumanEval、GSM8K 和 MMLU 等通用任务测试中，引入 SCR 后的模型性能几乎没有波动，证明该防御机制不会损害模型的固有能力。
开销评估： 增加 4-shot 检索仅带来约 13.3 秒的额外推理延迟和可接受的 GPU 显存增长（主要来自检索模型），在安全与效率间取得了较好平衡。

总结

核心贡献： SCR 提供了一种模型无关（Model-agnostic）且即插即用的防御新范式。它避免了频繁微调的昂贵成本，通过“以例示警”的方式，让 LLM 在推理阶段能实时识别并抵御未知的越狱手段。

优势：

可扩展性（Scalability）： 防御能力随记忆库扩充线性增长。
模型无关（Model-agnostic）： 一个检索模块可同时保护多个不同的 LLM 实例。
即时补丁： 发现新攻击后，分钟级即可完成入库更新。

局限性：

防御效果高度依赖于安全示例库的质量和覆盖面。
对于高度复杂或模糊的输入，检索机制可能无法精确匹配最佳安全上下文。
引入检索模型会增加一定的计算开销，在高并发场景下需进一步优化。
论文假设“识别新攻击”是已发生的，但在现实中需要自动化手段检测概念漂移。
防御效果高度依赖检索模型 g g g的质量，若攻击者构造“检索规避”样本，系统可能失效。

Cogito-v1-preview-llama-3B效果展示：多模态思维链（CoT）生成可视化

Cogito-v1-preview-llama-3B效果展示：多模态思维链（CoT）生成可视化最近在探索各种开源大模型时，我遇到了一个挺有意思的模型——Cogito-v1-preview-llama-3B。这个模型最吸引我的地方，是它号称能在回答问题时，把思考过程“可视化”出来。这听起来有点玄乎，但实际用下来，发现它确实有点东西。简单来说，Cogito-v1-preview-llama-3B是一个只有30亿参数的小模型，但它有个特别的能力：不仅能直接给出答案，还能在回答前先“自我反思”一番，然后把整个思考链条展示给你看。这种“思维链”功能，通常只在那些动辄几百亿参数的大模型里才能看到，现在居然在一个3B的小模型上实现了，这本身就挺让人惊讶的。我花了一些时间测试这个模型，发现它的效果确实超出了我的预期。它不仅在各种标准测试中表现不错，更重要的是，它的“可视化思考”功能，让我们能真正看到模型是怎么一步步推理出答案的。这对于理解模型的决策过程、排查错误，甚至教学演示，都很有价值。 1. 模型核心能力概览 Cogito-v1-preview-llama-3B虽然参数规模不大，

VS-CODE 里的github copilot 不支持自己配置模型api

1. 关于配置自定义 Claude API 的支持情况 * 结论：不支持。 * 机制说明： * VS Code 官方 GitHub Copilot 扩展（包括 Agent 功能）强制通过 GitHub 的代理服务器进行鉴权和路由。 * 模型切换：GitHub Copilot 允许在订阅权限范围内切换底层模型（例如从 GPT-4o 切换至 Claude 3.5 Sonnet），但这使用的是 GitHub 的企业/个人订阅配额。 * API Key 限制：无法在官方扩展设置中输入个人的 sk-ant-... (Anthropic API Key) 或自定义 Endpoint。 * 替代方案（非官方扩展）： * 若必须使用个人 Claude API

惊艳！Meta-Llama-3-8B-Instruct打造的AI助手案例展示

惊艳！Meta-Llama-3-8B-Instruct打造的AI助手案例展示 1. 引言：轻量级大模型时代的到来随着大语言模型（LLM）技术的快速演进，如何在有限算力条件下实现高性能推理成为开发者关注的核心问题。Meta于2024年4月发布的 Meta-Llama-3-8B-Instruct 正是这一趋势下的代表性成果——它以仅80亿参数规模，在单张消费级显卡上即可实现流畅对话与代码生成，同时保持接近GPT-3.5级别的指令遵循能力。本文将围绕基于 vLLM + Open WebUI 构建的 Meta-Llama-3-8B-Instruct 镜像应用，深入解析其技术架构、部署流程与实际表现，并通过真实交互案例展示其作为AI助手的强大潜力。该方案不仅支持本地化部署、数据隐私可控，还具备高响应速度和低资源消耗优势，特别适合中小企业、个人开发者及教育场景使用。 2. 技术背景与核心特性分析 2.1 模型定位与设计目标 Meta-Llama-3-8B-Instruct 是 Llama 3 系列中面向实际应用场景优化的中等规模版本，专为以下三类任务设计： * 自然语言对话

VsCode和AI的前端使用体验：分别使用了Copilot、通义灵码、iflyCode和Trae

1、前言大杂烩~每次开发一行代码，各个AI争先恐后抢着提供帮助备注：四款插件都需要先去官网注册账号，安装好之后有个账号验证。 2、插件详解 2.1、AI分析的答案 * GitHub Copilot * 定位：老牌 AI 代码补全工具，深度集成于 VS Code，基于海量 GitHub 代码库训练，擅长代码片段生成和上下文补全。 * 基本使用：在代码编辑器中输入函数头或注释，自动生成后续代码。支持自动生成提交信息、调试建议和多文件上下文理解，但需手动选择文件。 * 功能特点：具有多语言支持、高准确性的特点，适用于复杂项目和全栈开发，能满足追求效率的企业团队在日常代码补全、快速原型开发中的需求。 * 注册地址：GitHub Copilot · Your AI pair programmer · GitHub * 通义灵码 * 定位：阿里推出的免费 AI