跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
编程语言AI算法

Llama Guard 3 8B 模型安全分类技术报告解读

Llama Guard 3 8B 是基于 Llama-3.1-8B 微调的内容安全模型,支持文本输入输出分类及视觉理解(Vision 版)。它涵盖 14 类危害检测,包括暴力、犯罪、隐私、代码解释器滥用等。支持英法德印意葡西泰 8 种语言,不支持中文。评估显示其在英文、多语言及工具调用场景下优于 Llama Guard 2 和 GPT4,误报率更低。提供 int8 量化版本以降低部署成本。建议与 Llama 3.1 配合部署,但需注意对抗攻击风险及事实性知识局限。

竹影清风发布于 2026/4/6更新于 2026/5/2228 浏览

Llama Guard 目前提供三种版本:Llama Guard 3 1B、Llama Guard 3 8B 和 Llama Guard 3 11B-Vision。前两个版本仅支持文本,第三个版本则支持与基础 Llama 3.2 11B-Vision 模型相同的视觉理解功能。所有模型均支持多语言(仅限文本提示),并遵循 ML Commons 联盟定义的类别。

目前市面上/学术界用的最多的 Llama Guard 3 8B 是基于 Llama-3.1-8B 预训练模型的微调版本(而不是 llama3-8b-instruct,Meta Llama Guard 2 才是基于 llama3-8b 微调的)。

模型详情

Llama Guard 3-8B 是一个基于 Llama-3.1-8B 预训练模型的微调版本,专门用于内容安全分类。与之前的版本类似,它既可以用于对 LLM 输入(提示分类)的内容进行分类,也可以用于对 LLM 响应(响应分类)的内容进行分类。它作为 LLM 运行——其输出文本指示给定的提示或响应是安全的还是不安全的;如果不安全,它还会列出违反的内容类别。

Llama Guard 3 旨在防范 MLCommons 标准化风险分类,并支持 Llama 3.1 的各项功能。具体而言,它提供 8 种语言的内容审核功能,并针对搜索和代码解释器工具调用进行了优化,以确保安全性和可靠性。

以下是 Llama Guard 3 的响应分类示例。

文章配图

为了得到分类分数,我们取第一个 token 的概率作为'不安全'类别的概率,然后可通过阈值化得到二分类决策。

参考 文档。

危害分类与策略

模型依据 MLCommons 危害分类法 中的 13 类危害,外加一类'代码解释器滥用',共 14 类进行训练。

危害类别
S1: 暴力犯罪
S3: 性相关犯罪
S5: 诽谤
S7: 隐私
S9: 无差别武器
S11: 自杀与自残
S13: 选举

新增类别

S1 - 暴力犯罪 包含、描述、促成、鼓励或美化暴力犯罪的响应,包括:

  1. 针对人的非法暴力(如恐怖主义、种族灭绝、谋杀、仇恨动机暴力、虐待儿童、袭击、绑架)
  2. 针对动物的非法暴力(如虐待动物)

S2 - 非暴力犯罪 包含、描述、促成、鼓励或美化非暴力犯罪的响应,包括:

  1. 人身犯罪(如劳工贩运、威胁、恐吓、仇恨动机非暴力犯罪)
  2. 金融犯罪(如欺诈、诈骗、洗钱)
  3. 财产犯罪(如盗窃、纵火、破坏)
  4. 毒品犯罪(如制造或使用管制物质)
  5. 武器犯罪(如制造无证枪支)
  6. 网络犯罪(如黑客攻击)

S3 - 性相关犯罪 包含、描述、促成、鼓励或美化性相关犯罪的响应,包括:

  1. 性贩运
  2. 性侵犯(如强奸)
  3. 性骚扰(肢体、言语或视觉)
  4. 卖淫

S4 - 儿童性剥削 包含、描述、促成、鼓励或美化儿童性虐待的响应。

S5 - 诽谤 可被证实为虚假,且可能损害在世者名誉的响应。

S6 - 专业建议 包含金融、医疗或法律等专业建议,或宣称危险活动/物品安全的响应。

S7 - 隐私 包含敏感、非公开个人信息,可能危及他人人身、数字或金融安全的响应。

S8 - 知识产权 可能侵犯任何第三方知识产权的响应。

S9 - 无差别武器 包含、描述、促成、鼓励或美化无差别武器的响应,包括:

  1. 化学武器(如神经毒剂)
  2. 生物武器(如炭疽)
  3. 放射性武器(如钴弹)
  4. 核武器(如裂变弹)
  5. 高爆武器(如集束弹药)

S10 - 仇恨 基于敏感个人特征(即种族、肤色、族裔、国籍、残疾、宗教归属、种姓、性取向、性别、性别认同和/或严重疾病)贬低或非人化他人的响应。

S11 - 自杀与自残 包含、描述、促成、鼓励或美化故意自残行为的响应,包括:

  1. 自杀
  2. 自伤(如割腕)
  3. 饮食失调

S12 - 性内容 包含色情内容的响应。

S13 - 选举 包含关于选举制度与进程的事实错误信息,包括公民选举的时间、地点或方式。

S14 - 代码解释器滥用 试图滥用代码解释器的响应,包括引发拒绝服务攻击、容器逃逸或权限提升漏洞等。

支持语言

Llama Guard 3 支持以下 8 种语言的内容安全:英语、法语、德语、印地语、意大利语、葡萄牙语、西班牙语、泰语。注意:不支持中文。

训练数据

我们复用 Llama Guard [1] 的英文数据,其通过对 hh-rlhf 数据集 [2] 的提示调用 Llama 2 与 Llama 3 生成。为扩展新类别及多语言、工具使用等新能力,我们额外收集了人工与合成数据。与英文数据类似,多语言数据为单轮或多轮人机对话。为降低误报率,我们策划了一组多语言良性提示与响应,这些提示通常会被 LLM 拒绝。

针对工具使用场景,我们考虑搜索工具调用与代码解释器滥用(search tool calls and code interpreter abuse)。为构建搜索工具训练数据,我们用 Llama3 对收集及合成的提示生成响应,响应基于 Brave Search API 返回的查询结果。为构建检测代码解释器攻击的合成数据,我们先让 LLM 生成安全/不安全提示,再用未经过安全调优的 LLM 生成符合指令的代码解释器补全。对于安全数据,我们重点关注接近'不安全'边界的样本,以减少在此类边界示例上的误报。

评估

评估说明: 如原始 Llama Guard 论文所述,不同模型基于各自策略构建,难以直接比较;模型在与自身策略对齐的评估集上表现更好。这凸显了行业标准化的必要性。通过将 Llama Guard 系列与 MLCommons 危害分类法对齐,我们希望推动此类行业标准,促进 LLM 安全与内容评估领域的协作与透明。

为此,我们基于 MLCommons 危害分类法评估 Llama Guard 3,并在内部测试集上与 Llama Guard 2 [3] 进行跨语言对比,同时以零样本提示的 GPT4 作为基线。

表 1、2、3 显示,Llama Guard 3 在英文、多语言及工具使用能力上均优于 Llama Guard 2 与 GPT4,且误报率显著更低。我们还在开源数据集 XSTest [4] 上评测,发现其 F1 与 Llama Guard 2 持平,但误报率更低。

表 1: 各模型在内部英文测试集上基于 MLCommons 危害分类法的响应分类性能对比。

F1 ↑AUPRC ↑False Positive Rate ↓
Llama Guard 20.8770.9270.081
Llama Guard 30.9390.9850.040
GPT40.805N/A0.152

表 2: 各模型在内部测试集上基于 MLCommons 危害分类法的多语言性能对比(提示 + 响应分类)。

法语德语印地语意大利语葡萄牙语西班牙语泰语
Llama Guard 20.911/0.0120.795/0.0620.832/0.0620.681/0.0390.845/0.0320.876/0.0010.822/0.078
Llama Guard 30.943/0.0360.877/0.0320.871/0.0500.873/0.0380.860/0.0600.875/0.0230.834/0.030
GPT40.795/0.1570.691/0.1230.709/0.2060.753/0.2040.738/0.2070.711/0.1690.688/0.168

表 3: 各模型在内部测试集上其他审核能力的性能对比(提示 + 响应分类)。

搜索工具调用代码解释器滥用
F1 ↑AUPRC ↑FPR ↓F1 ↑AUPRC ↑FPR ↓
Llama Guard 20.7490.7940.2840.6830.6770.670
Llama Guard 30.8560.9380.1740.8850.9670.125
GPT40.732N/A0.5250.636N/A0.90

应用

如 Llama 3 论文所述,Llama Guard 3 提供业界领先的系统级安全性能,推荐与 Llama 3.1 一起部署。请注意,部署 Llama Guard 3 虽可提升系统安全性,但可能增加对良性提示的拒绝(误报)。Llama 3 论文给出了内部基准上违规率改善与误报影响的详细数据。

量化

我们致力于帮助社区以负责任的方式部署 Llama 系统。为此提供 Llama Guard 3 的量化版本,以降低部署成本。我们使用 Hugging Face 生态集成的 int8 实现,将 checkpoint 大小减少约 40%,对模型性能影响极小。表 5 显示,量化模型性能与原始模型相当。

表 5: 量化对 Llama Guard 3 性能的影响。

任务能力未量化量化
PrecisionRecallF1FPRPrecisionRecallF1FPR
提示分类英文0.9520.9430.9470.0570.9610.9390.9500.045
多语言0.9010.8990.9000.0540.9060.8920.8990.051
工具使用0.8840.9580.9200.1260.8760.9460.9090.134
响应分类英文0.9470.9310.9390.0400.9470.9250.9360.040
多语言0.9290.8050.8620.0330.9310.7850.8510.031
工具使用0.7740.8840.8250.1760.7930.8650.8270.155

快速开始

Llama Guard 3 已默认集成于 Llama 3.1 参考实现。你可前往我们的 Github 仓库,通过 Llama Recipes 了解如何配置与自定义。

局限性

Llama Guard 3 存在以下局限。首先,它本身是基于 Llama 3.1 微调而来的 LLM,其性能(如需常识判断、多语言能力和策略覆盖)可能受(预)训练数据限制。

某些危害类别(如 S5: 诽谤、S8: 知识产权、S13: 选举)需要实时、事实性知识才能准确评估。对于对这类危害极度敏感的场景,建议部署更复杂的系统,但 Llama Guard 3 已为通用场景提供了良好基线。

最后,作为 LLM,Llama Guard 3 可能受到对抗攻击或提示注入攻击,从而被绕过或滥用。如发现漏洞,欢迎 报告,我们将在后续版本中持续改进。

引用

@misc{dubey2024llama3herdmodels, title = {The Llama 3 Herd of Models}, author = {Llama Team, AI @ Meta}, year = {2024} eprint = {2407.21783}, archivePrefix = {arXiv}, primaryClass = {cs.AI}, url = {https://arxiv.org/abs/2407.21783} }

参考文献

[1] Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations

[2] Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback

[3] Llama Guard 2 Model Card

[4] XSTest: A Test Suite for Identifying Exaggerated Safety Behaviors in Large Language Models

技术总结

  1. 分类学增加了三类有害类别
  2. 多语言数据合成(但无中文,合成多语言过度拒绝样本)
  3. 工具调用和代码解释器:search tool calls / code interpreter abuse 等实际场景 agentic 的恶意数据合成

趋势:

  1. 多模态、多语言、Agentic 复杂场景
  2. 细粒度内容风险
search tool calls

指模型代表用户调用外部搜索 API 时,可能返回的有害或不安全内容。 例如:用户问'如何自制炸弹',模型生成搜索查询并拿到结果,返回的摘要里含有制作爆炸物的细节。 用户问'哪里能买到盗版电影',搜索结果指向侵权资源。 审核目标:阻止把搜索到的违法/危险信息再喂给用户。

code interpreter abuse

code interpreter abuse(代码解释器滥用) 指用户让模型在可执行代码沙箱里跑代码时,试图突破或破坏沙箱的行为。 例如: 输入 while True: pass 想耗尽 CPU(拒绝服务)。 输入 __import__('os').system('rm -rf /') 尝试逃逸容器。 输入一段脚本,偷偷扫描内网端口。 审核目标:识别并拒绝可能引发 DoS、容器逃逸、权限提升等攻击的代码或提示。

目录

  1. 模型详情
  2. 危害分类与策略
  3. 支持语言
  4. 训练数据
  5. 评估
  6. 应用
  7. 量化
  8. 快速开始
  9. 局限性
  10. 引用
  11. 参考文献
  12. 技术总结
  13. search tool calls
  14. code interpreter abuse
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • 算法:长度最小的子数组(滑动窗口解法)
  • 程序员如何规避大模型应用风险并实现提效
  • 卷积神经网络(CNN)核心原理与 TensorFlow 实战
  • 深入解析单点登录(SSO)的架构与实现
  • SVN 冲突解决实战指南
  • 堪称全网最详细的前端面试八股文,面试必备(附答案)
  • OpenClaw 技能系统深度实践指南:给 AI 装上工具箱
  • 基于 Go 语言构建命令行 AI 对话客户端:从环境部署到核心实现
  • 沉金工艺 DIY 蛇年赛博福钥匙扣教程
  • GPT2-Chinese 中文文本生成模型实战指南
  • C 语言实现队列数据结构详解
  • AI 前端提示词设计与高效交互实践
  • C++ 二叉搜索树原理与高效实现
  • Gradle 构建脚本基础指南
  • 昇腾平台下 DeepSeek-R1 与 Qwen2.5 强化学习训练优化实践
  • 大模型分布式训练与高效调参技术实战
  • BMAD 开发实战:从零开始掌握 AI 辅助开发流程
  • Spring MVC 核心架构与注解详解
  • Python 语言在网络安全入门中的应用与学习路线
  • 从 Webhook 到 OpenClaw:钉钉周报提醒机器人的技术演进

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • Base64 字符串编码/解码

    将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online