Llama 3：Meta 新一代开源大语言模型详解

Meta 发布 Llama 3 系列开源大语言模型，包含 8B 和 70B 两种规模版本及指令微调版。新模型采用 128,256 词汇表 Tokenizer 和分组查询注意力（GQA）架构，支持 8000 Token 上下文。在 Hugging Face 生态中部署 Llama 3 的方法，包括使用 Transformers 库加载模型、量化推理、通过 TGI 部署端点以及在消费级 GPU 上使用 TRL 进行微调的具体步骤和代码示例。同时涵盖了 Llama Guard 2 安全模型的应用及许可条款要求。

道系青年发布于 2025/2/6更新于 2026/7/2138 浏览

介绍

Meta 公司的 Llama 3 是开放获取的 Llama 系列的最新版本，现已在 Hugging Face 平台发布。Meta 持续致力于开放 AI 领域的发展，此次发布实现了与 Hugging Face 生态系统的深度集成。

Llama 3 提供两个版本：8B 版本适合在消费级 GPU 上高效部署和开发；70B 版本则专为大规模 AI 应用设计。每个版本都包括基础和指令调优两种形式。此外，基于 Llama 3 8B 微调后的 Llama Guard 新版本也已作为 Llama Guard 2 (安全微调版本) 发布。

本次发布的主要特性和集成功能包括：

🤗 Transformers 的集成
推理功能集成到推理端点、Google Cloud 和 Amazon SageMaker
使用 🤗 TRL 在单个 GPU 上对 Llama 3 8B 进行微调的示例

Llama 3 的新进展

Llama 3 的推出标志着 Meta 基于 Llama 2 架构推出了四个新的开放型大语言模型。这些模型分为两种规模：8B 和 70B 参数，每种规模都提供预训练基础版和指令调优版。所有版本均可在各种消费级硬件上运行，并具有 8000 Token 的上下文长度。

此外，还发布了基于 Llama 3 8B 微调后的最新 Llama Guard 版本——Llama Guard 2。Llama Guard 2 是为生产环境设计的，能够对大语言模型的输入 (即提示) 和响应进行分类，以便识别潜在的不安全内容。

与 Llama 2 相比，Llama 3 最大的变化是采用了新的 Tokenizer，将词汇表大小扩展至 128,256 (前版本为 32,000 Token)。这一更大的词汇库能够更高效地编码文本 (无论输入还是输出)，并有可能提升模型的多语种处理能力。不过，这也导致嵌入层的输入和输出矩阵尺寸增大，这是小型模型参数增加 (从 Llama 2 的 7B 增至 Llama 3 的 8B) 的主要原因之一。此外，8B 版本的模型现在采用了分组查询注意力 (GQA)，这是一种效率更高的表达方式，有助于处理更长的上下文。

Llama 3 模型在两个拥有 24,000 GPU 的集群上进行了训练，使用的是超过 15 万亿 Token 的新公共在线数据。更大规模且更细致的数据策划是性能提升的重要因素。Llama 3 Instruct 针对对话应用进行了优化，结合了超过 1000 万的人工标注数据，通过监督式微调 (SFT)、拒绝采样、邻近策略优化 (PPO) 和直接策略优化 (DPO) 进行训练。

关于许可条款，Llama 3 提供了一个宽松的许可证，允许重新分发、微调和创作衍生作品。Llama 3 许可证中新增了明确归属的要求，这在 Llama 2 中并未设定。例如，衍生模型需要在其名称开头包含'Llama 3'，并且在衍生作品或服务中需注明'基于 Meta Llama 3 构建'。

如何设置 Llama 3 的提示词

基础模型不具备固定的提示格式。如同其他基础模型，它们可以用来延续输入序列，提供合理的续写或进行零样本/少样本推理。这些模型也是您自定义微调的理想基础。指令版本采用以下对话结构：

system

{{ system_prompt }}user

{{ user_msg_1 }}assistant

{{ model_answer_1 }}

为了有效使用，必须精确复制此格式。我们稍后将展示如何利用 transformers 中提供的聊天模板轻松重现这一指令提示格式。

如何使用 🤗 Transformers

通过安装 Transformers 的最新版本，您可以充分利用 Hugging Face 生态系统中提供的各种工具，如：

训练及推理脚本和示例
安全文件格式 (safetensors)
与 bitsandbytes (4 位量化)、PEFT (参数效率微调) 和 Flash Attention 2 等工具的集成
辅助生成操作的实用工具
模型部署的导出机制

此外，Llama 3 模型兼容 torch.compile() 的 CUDA 图表，使得推理时间可加速约 4 倍！

要在 transformers 中使用 Llama 3 模型，请确保安装了最新版本：

pip install -U "transformers==4.40.0" --upgrade

以下代码片段展示了如何在 transformers 中使用 Llama-3-8b-instruct。这需要大约 16 GB 的 RAM，包括 3090 或 4090 等消费级 GPU。

 transformers
 torch

model_id = 

pipeline = transformers.pipeline(
    ,
    model=model_id,
    model_kwargs={: torch.bfloat16},
    device=,
)

messages = [
    {: , : },
    {: , : },
]

prompt = pipeline.tokenizer.apply_chat_template(
	messages, 
	tokenize=, 
	add_generation_prompt=
)

tokenizer = pipeline.tokenizer
terminators = [
    tokenizer.eos_token_id,
    tokenizer.convert_tokens_to_ids()
]

outputs = pipeline(
    prompt,
    max_new_tokens=,
    eos_token_id=terminators,
    do_sample=,
    temperature=,
    top_p=,
)
(outputs[][][(prompt):])

Llama 3：Meta 新一代开源大语言模型详解

介绍

Llama 3 的新进展

如何设置 Llama 3 的提示词

如何使用 🤗 Transformers

更多推荐文章

相关免费在线工具

推理集成

与推理端点的集成

与 Google Cloud 的集成

与 Amazon SageMaker 的集成

使用 🤗 TRL 进行微调

最佳实践与注意事项

总结

更多推荐文章

相关免费在线工具

Llama 3：Meta 新一代开源大语言模型详解

介绍

Llama 3 的新进展

如何设置 Llama 3 的提示词

如何使用 🤗 Transformers

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

推理集成

与推理端点的集成

与 Google Cloud 的集成

与 Amazon SageMaker 的集成

使用 🤗 TRL 进行微调

最佳实践与注意事项

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具