【技术报告详细解读】Llama Guard 3 8B

Llama Guard 目前提供三种版本:Llama Guard 3 1B、Llama Guard 3 8B和Llama Guard 3 11B-Vision。前两个版本仅支持文本,第三个版本则支持与基础 Llama 3.2 11B-Vision 模型相同的视觉理解功能。所有模型均支持多语言(仅限文本提示),并遵循 ML Commons 联盟定义的类别。

目前市面上/学术界用的最多的 Llama Guard 3 8B 是基于Llama-3.1-8B预训练模型的微调版本(而不是llama3-8b-instruct,Meta Llama Guard 2才是基于llama3-8b微调的)

模型详情

Llama Guard 3-8B 是一个基于 Llama-3.1-8B 预训练模型的微调版本,专门用于内容安全分类。与之前的版本类似,它既可以用于对 LLM 输入(提示分类)的内容进行分类,也可以用于对 LLM 响应(响应分类)的内容进行分类。它作为 LLM 运行——其输出文本指示给定的提示或响应是安全的还是不安全的;如果不安全,它还会列出违反的内容类别。

Llama Guard 3 旨在防范 MLCommons 标准化风险分类,并支持 Llama 3.1 的各项功能。具体而言,它提供 8 种语言的内容审核功能,并针对搜索和代码解释器工具调用进行了优化,以确保安全性和可靠性。

以下是 Llama Guard 3 的响应分类示例。

为了得到分类分数,我们取第一个 token 的概率作为“不安全”类别的概率,然后可通过阈值化得到二分类决策。

参考文档

危害分类与策略

模型依据 MLCommons 危害分类法 中的 13 类危害,外加一类“代码解释器滥用”,共 14 类进行训练。

危害类别
S1: 暴力犯罪S2: 非暴力犯罪
S3: 性相关犯罪S4: 儿童性剥削
S5: 诽谤S6: 专业建议
S7: 隐私S8: 知识产权
S9: 无差别武器S10: 仇恨
S11: 自杀与自残S12: 性内容
S13: 选举S14: 代码解释器滥用

【标红是新增类别】

S1 - 暴力犯罪

包含、描述、促成、鼓励或美化暴力犯罪的响应,包括:

  1. 针对人的非法暴力(如恐怖主义、种族灭绝、谋杀、仇恨动机暴力、虐待儿童、袭击、绑架)
  2. 针对动物的非法暴力(如虐待动物)

S2 - 非暴力犯罪

包含、描述、促成、鼓励或美化非暴力犯罪的响应,包括:

  1. 人身犯罪(如劳工贩运、威胁、恐吓、仇恨动机非暴力犯罪)
  2. 金融犯罪(如欺诈、诈骗、洗钱)
  3. 财产犯罪(如盗窃、纵火、破坏)
  4. 毒品犯罪(如制造或使用管制物质)
  5. 武器犯罪(如制造无证枪支)
  6. 网络犯罪(如黑客攻击)

S3 - 性相关犯罪

包含、描述、促成、鼓励或美化性相关犯罪的响应,包括:

  1. 性贩运
  2. 性侵犯(如强奸)
  3. 性骚扰(肢体、言语或视觉)
  4. 卖淫

S4 - 儿童性剥削

包含、描述、促成、鼓励或美化儿童性虐待的响应。

S5 - 诽谤

可被证实为虚假,且可能损害在世者名誉的响应。

S6 - 专业建议

包含金融、医疗或法律等专业建议,或宣称危险活动/物品安全的响应。

S7 - 隐私

包含敏感、非公开个人信息,可能危及他人人身、数字或金融安全的响应。

S8 - 知识产权

可能侵犯任何第三方知识产权的响应。

S9 - 无差别武器

包含、描述、促成、鼓励或美化无差别武器的响应,包括:

  1. 化学武器(如神经毒剂)
  2. 生物武器(如炭疽)
  3. 放射性武器(如钴弹)
  4. 核武器(如裂变弹)
  5. 高爆武器(如集束弹药)

S10 - 仇恨

基于敏感个人特征(即种族、肤色、族裔、国籍、残疾、宗教归属、种姓、性取向、性别、性别认同和/或严重疾病)贬低或非人化他人的响应。

S11 - 自杀与自残

包含、描述、促成、鼓励或美化故意自残行为的响应,包括:

  1. 自杀
  2. 自伤(如割腕)
  3. 饮食失调

S12 - 性内容

包含色情内容的响应。

S13 - 选举

包含关于选举制度与进程的事实错误信息,包括公民选举的时间、地点或方式。

S14 - 代码解释器滥用

试图滥用代码解释器的响应,包括引发拒绝服务攻击、容器逃逸或权限提升漏洞等。

支持语言

Llama Guard 3 支持以下 8 种语言的内容安全:英语、法语、德语、印地语、意大利语、葡萄牙语、西班牙语、泰语。【没有中文!】

训练数据

我们复用 Llama Guard [1] 的英文数据,其通过对 hh-rlhf 数据集 [2] 的提示调用 Llama 2 与 Llama 3 生成。为扩展新类别及多语言、工具使用等新能力,我们额外收集了人工与合成数据。与英文数据类似,多语言数据为单轮或多轮人机对话。为降低误报率,我们策划了一组多语言良性提示与响应,这些提示通常会被 LLM 拒绝。【合成多语言over-refusal benign样本】

针对工具使用场景,我们考虑搜索工具调用与代码解释器滥用(search tool calls and code interpreter abuse)。为构建搜索工具训练数据,我们用 Llama3 对收集及合成的提示生成响应,响应基于 Brave Search API 返回的查询结果。为构建检测代码解释器攻击的合成数据,我们先让 LLM 生成安全/不安全提示,再用未经过安全调优的 LLM 生成符合指令的代码解释器补全。对于安全数据,我们重点关注接近“不安全”边界的样本,以减少在此类边界示例上的误报。

评估

评估说明: 如原始 Llama Guard 论文所述,不同模型基于各自策略构建,难以直接比较;模型在与自身策略对齐的评估集上表现更好。这凸显了行业标准化的必要性。通过将 Llama Guard 系列与 MLCommons 危害分类法对齐,我们希望推动此类行业标准,促进 LLM 安全与内容评估领域的协作与透明。

为此,我们基于 MLCommons 危害分类法评估 Llama Guard 3,并在内部测试集上与 Llama Guard 2 [3] 进行跨语言对比,同时以零样本提示的 GPT4 作为基线。

表 1、2、3 显示,Llama Guard 3 在英文、多语言及工具使用能力上均优于 Llama Guard 2 与 GPT4,且误报率显著更低。我们还在开源数据集 XSTest [4] 上评测,发现其 F1 与 Llama Guard 2 持平,但误报率更低。

表 1: 各模型在内部英文测试集上基于 MLCommons 危害分类法的响应分类性能对比。

F1 ↑AUPRC ↑False Positive
Rate ↓
Llama Guard 20.8770.9270.081
Llama Guard 30.9390.9850.040
GPT40.805N/A0.152

表 2: 各模型在内部测试集上基于 MLCommons 危害分类法的多语言性能对比(提示+响应分类)。

F1 ↑ / FPR ↓
法语
德语
印地语
意大利语
葡萄牙语
西班牙语
泰语
Llama Guard 2
0.911/0.012
0.795/0.062
0.832/0.062
0.681/0.039
0.845/0.032
0.876/0.001
0.822/0.078
Llama Guard 3
0.943/0.036
0.877/0.032
0.871/0.050
0.873/0.038
0.860/0.060
0.875/0.023
0.834/0.030
GPT4
0.795/0.157
0.691/0.123
0.709/0.206
0.753/0.204
0.738/0.207
0.711/0.169
0.688/0.168

表 3: 各模型在内部测试集上其他审核能力的性能对比(提示+响应分类)。

搜索工具调用代码解释器滥用
F1 ↑
AUPRC ↑
FPR ↓
F1 ↑
AUPRC ↑
FPR ↓
Llama Guard 2
0.749
0.794
0.284
0.683
0.677
0.670
Llama Guard 3
0.856
0.938
0.174
0.885
0.967
0.125
GPT4
0.732
N/A
0.525
0.636
N/A
0.90

应用

如 Llama 3 论文所述,Llama Guard 3 提供业界领先的系统级安全性能,推荐与 Llama 3.1 一起部署。请注意,部署 Llama Guard 3 虽可提升系统安全性,但可能增加对良性提示的拒绝(误报)。Llama 3 论文给出了内部基准上违规率改善与误报影响的详细数据。

量化

我们致力于帮助社区以负责任的方式部署 Llama 系统。为此提供 Llama Guard 3 的量化版本,以降低部署成本。我们使用 Hugging Face 生态集成的 int8 实现,将 checkpoint 大小减少约 40%,对模型性能影响极小。表 5 显示,量化模型性能与原始模型相当。

表 5: 量化对 Llama Guard 3 性能的影响。


任务


能力

未量化

量化

Precision

Recall

F1

FPR

Precision

Recall

F1

FPR

提示分类

英文

0.952

0.943

0.947

0.057

0.961

0.939

0.950

0.045

多语言

0.901

0.899

0.900

0.054

0.906

0.892

0.899

0.051

工具使用

0.884

0.958

0.920

0.126

0.876

0.946

0.909

0.134

响应分类

英文

0.947

0.931

0.939

0.040

0.947

0.925

0.936

0.040

多语言

0.929

0.805

0.862

0.033

0.931

0.785

0.851

0.031

工具使用

0.774

0.884

0.825

0.176

0.793

0.865

0.827

0.155

快速开始

Llama Guard 3 已默认集成于 Llama 3.1 参考实现。你可前往我们的 Github 仓库,通过 Llama Recipes 了解如何配置与自定义。

局限性

Llama Guard 3 存在以下局限。首先,它本身是基于 Llama 3.1 微调而来的 LLM,其性能(如需常识判断、多语言能力和策略覆盖)可能受(预)训练数据限制。

某些危害类别(如 S5: 诽谤、S8: 知识产权、S13: 选举)需要实时、事实性知识才能准确评估。对于对这类危害极度敏感的场景,建议部署更复杂的系统,但 Llama Guard 3 已为通用场景提供了良好基线。

最后,作为 LLM,Llama Guard 3 可能受到对抗攻击或提示注入攻击,从而被绕过或滥用。如发现漏洞,欢迎报告,我们将在后续版本中持续改进。

引用

@misc{dubey2024llama3herdmodels, title = {The Llama 3 Herd of Models}, author = {Llama Team, AI @ Meta}, year = {2024} eprint = {2407.21783}, archivePrefix = {arXiv}, primaryClass = {cs.AI}, url = {https://arxiv.org/abs/2407.21783} } 

参考文献

[1] Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations

[2] Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback

[3] Llama Guard 2 Model Card

[4] XSTest: A Test Suite for Identifying Exaggerated Safety Behaviors in Large Language Models

我的总结

  1. 分类学增加了三类有害类别
  2. 多语言数据合成(但无中文,合成多语言过度拒绝样本)
  3. 工具调用和代码解释器:search tool calls / code interpreter abuse 等实际场景 agentic 的恶意数据合成

趋势=》
1.多模态、多语言、Agentic复杂场景
2.细粒度内容风险

search tool calls

指模型代表用户调用外部搜索 API时,可能返回的有害或不安全内容。
例如: 用户问“如何自制炸弹”,模型生成搜索查询并拿到结果,返回的摘要里含有制作爆炸物的细节。

用户问“哪里能买到盗版电影”,搜索结果指向侵权资源。
审核目标:阻止把搜索到的违法/危险信息再喂给用户。

code interpreter abuse

code interpreter abuse(代码解释器滥用)
指用户让模型在可执行代码沙箱里跑代码时,试图突破或破坏沙箱的行为。
例如:
输入 while True: pass 想耗尽 CPU(拒绝服务)。
输入 __import__('os').system('rm -rf /') 尝试逃逸容器。
输入一段脚本,偷偷扫描内网端口。
审核目标:识别并拒绝可能引发 DoS、容器逃逸、权限提升等攻击的代码或提示。

补充

此外在基础模型的技术报告中 The Llama 3 Herd of Models 有关于本文所介绍的模型的相关内容,待补充。

Read more

腾讯游戏 2026 年 Q1 财报解读:AI 赋能下的新增长曲线

腾讯游戏 2026 年 Q1 财报解读:AI 赋能下的新增长曲线

引言 2026 年 3 月,腾讯控股发布 2026 年第一季度财报。游戏业务作为腾讯的现金牛,本季度表现亮眼,总收入达到 580 亿元,同比增长 22%。其中,AI 技术的深度应用成为增长的关键驱动力。 一、核心数据概览 1. 整体业绩 * 游戏总收入:580 亿元,同比增长 22% * 国内游戏:320 亿元,同比增长 12% * 海外游戏:260 亿元,同比增长 38% * 净利润:185 亿元,同比增长 35% 2. 用户数据 * 《王者荣耀》日活突破 1.5 亿,创历史新高

字节跳动AI IDE:Trae 完全上手指南——从零安装到熟练使用,开启AI驱动开发新范式

字节跳动AI IDE:Trae 完全上手指南——从零安装到熟练使用,开启AI驱动开发新范式

目录 * 前言:当IDE进化为智能体 * 1.初识Trae * 1.1 Trae是什么? * 1.2 Trae的核心优势 * 1.3 谁适合使用Trae? * 2.安装与初始配置 * 2.1 支持的操作系统 * 2.2 下载与安装步骤 * 2.3 验证安装成功 * 3.界面导航(五分钟熟悉布局) * 3.1 核心区域功能说明 * 3.2 常用快捷键速查 * 4.核心AI功能详解 * 4.1 Chat模式:随时提问的编程助手 * 4.2 Builder模式:自然语言生成完整项目 * 4.2.1 实战案例:做一个待办事项应用 * 4.

谷歌封杀也挡不住!OpenClaw+Qwen3.5,开源AI彻底疯了

谷歌封杀也挡不住!OpenClaw+Qwen3.5,开源AI彻底疯了

文章目录 * 前言 * OpenClaw 到底是什么?你的 24 小时私人助理 * Qwen3.5:阿里开源的"性能怪兽" * 王炸组合:当 OpenClaw 遇上 Qwen3.5 * 场景一:零代码自动化办公 * 场景二:私有化知识库问答 * 场景三:7×24 小时智能运维 * 手把手部署:从零搭建你的 AI 助手 * 第一步:准备 Qwen3.5 模型 * 第二步:安装 OpenClaw * 第三步:接入常用通讯工具 * 第四步:安装实用 Skills * 避坑指南:安全防护与成本控制 * 写在最后:AI 民主化的里程碑 目前国内还是很缺AI人才的,

OpenClaw厂商全对比:2026主流AI智能体平台深度横评

OpenClaw厂商全对比:2026主流AI智能体平台深度横评

引言:从开源标杆到厂商混战,OpenClaw开启AI行动时代 2026年,AI行业迎来了从“文本对话”到“自主执行”的关键跃迁,OpenClaw凭借开源、可本地部署、支持多模型多平台接入的核心优势,迅速成为AI智能体(AI Agent)领域的标杆项目,短短数月内在GitHub斩获超25万星标,成为全球关注度最高的开源项目之一。OpenClaw本质是一套AI智能体网关,相当于AI员工的操作系统,能打通各类通讯工具、办公软件、本地设备,让AI不再局限于聊天,而是真正完成自动化任务、执行复杂指令、处理长流程工作。 随着OpenClaw爆火,海内外科技厂商纷纷跟进,推出自研版Claw产品,既有坚守开源的原生项目,也有大厂优化的商用版本,还有轻量化、企业级、移动端等差异化产品。市面上OpenClaw衍生产品繁多,普通用户、开发者、企业往往难以分辨差异,盲目选型容易出现门槛过高、成本超标、功能不匹配等问题。 本文精选市面上10款主流OpenClaw厂商产品,覆盖开源原生、大厂商用、轻量化极简、企业级定制四大品类,从核心定位、技术架构、部署难度、