Meta 发布 Llama 3：架构、训练与性能深度解析

Meta 正式发布 Llama 3 开源大语言模型，包含 8B 和 70B 两个版本。该模型在架构上采用 Decoder-only Transformer 结构，引入 12.8 万词表和 GQA 机制，支持 8192 上下文长度。训练数据达 15 万亿 token，包含大量代码和多语言数据，并通过严格过滤流程保证质量。训练采用数据、模型及流水线并行技术，结合 SFT、DPO 等指令微调方法优化对齐效果。在推理、代码生成及指令遵循等基准测试中表现优异，人工评估显示其在多场景下具备高质量服务能力。目前支持云端 API 及本地 vLLM/Ollama 部署，未来将扩展多模态及更长上下文支持，推动生成式 AI 应用发展。

竹影清风发布于 2025/2/7更新于 2026/6/222 浏览

Meta 正式发布了 Llama 3，包含 8B 和 70B 两个版本。作为迄今为止最强大的开源大语言模型之一，Llama 3 在模型架构、训练数据、训练规模和指令微调等方面进行了多项关键改进，使其在推理、代码生成和指令遵循等任务上表现出色。特别是在中文内容的理解和生成方面，Llama 3 展现了显著的实力，能够工整地生成七言绝句等复杂文本。

模型架构与训练数据

Llama 3 采用了相对标准的 Decoder-only Transformer 架构。与 Llama 2 相比，Llama 3 在架构层面进行了多项关键优化：

词表扩展：使用了包含 12.8 万个 token 的词表进行更高效的编码，这使得模型能够更好地理解和处理文本信息，减少了 OOV（未登录词）问题。
分组查询注意力机制（GQA）：为了提高推理效率，Llama 3 在 8B 和 70B 两种模型尺寸上都采用了 GQA。这种机制通过减少 KV Cache 的存储需求并降低计算量，显著加快了推理速度，同时保持了接近 Multi-Head Attention 的性能。
上下文窗口：Llama 3 支持 8192 个 token 的序列长度，这意味着模型可以处理更长的文本段落，并更好地理解长距离的上下文依赖关系。

在训练数据方面，Llama 3 的训练数据规模达到了 15 万亿个 token，是 Llama 2 的七倍。训练数据来自公开可用的在线数据源，并经过精心筛选和处理，以确保数据的质量和多样性。具体包括：

代码数据：训练数据包含四倍于 Llama 2 的代码数据，这使得模型在代码生成和理解方面表现出色。
多语言能力：训练数据包含覆盖 30 多种语言的非英语数据，虽然模型在这些语言上的性能可能不如英语，但这为 Llama 3 的多语言能力奠定了基础。
数据过滤：为了确保质量，Meta 开发了一系列数据过滤流程，包括使用启发式过滤器、NSFW 过滤器、语义重复数据删除方法和文本分类器来预测数据质量。Meta 利用 Llama 2 生成训练数据，用于训练 Llama 3 的文本质量分类器。此外，Meta 还进行了大量实验，以评估在最终预训练数据集中混合不同来源数据的最佳方法，例如问答、STEM、编码、历史知识等。

Llama 3 的训练规模与指令微调

Llama 3 在训练规模上进行了突破性的尝试，采用了多种并行化技术，并在庞大的 GPU 集群上进行训练。为了有效地利用庞大的训练数据，研究人员结合了数据并行、模型并行和流水线并行三种并行化技术，并在两个定制的 24K GPU 集群上进行训练。这种大规模的训练架构使得 Llama 3 能够从海量数据中学习到丰富的知识和模式，为其强大的性能奠定了基础。

除了大规模训练，Llama 3 还采用了多种指令微调技术，以提升其在对话应用中的表现。研究人员使用了监督微调（SFT）、拒绝采样、近端策略优化（PPO）和直接策略优化（DPO）等技术，对预训练模型进行进一步的优化。这些技术能够有效地引导模型学习人类的指令和偏好，使其在生成文本时更加符合人类的预期。

SFT（Supervised Fine-Tuning）：通过高质量的人类标注数据对模型进行微调，使其学会遵循指令。
DPO（Direct Preference Optimization）：相比 PPO，DPO 不需要复杂的奖励模型训练，直接通过优化偏好数据来对齐人类价值观，简化了训练流程并提高了稳定性。

Llama 3 的性能与评估

Llama 3 在多个行业基准测试中展现了最先进的性能，标志着大语言模型能力的显著提升。它在推理、代码生成和指令遵循等方面取得了突破性进展，使其能够更好地理解和响应用户的指令，并生成高质量的文本内容。

为了评估 Llama 3 在真实场景中的表现，Meta 开发了一个全新的人工评估集，包含 1800 个涵盖 12 个关键用例的提示，例如寻求建议、头脑风暴、分类、封闭式问答、编码、创意写作、提取信息、扮演角色、开放式问答、推理、改写和总结等。评估结果显示，Llama 3 在这些用例中表现出色，尤其是在推理和代码生成方面，展现出强大的能力。这表明 Llama 3 不仅在基准测试中表现优异，在实际应用中也能为用户提供高质量的服务。

部署与生态建设

Llama 3 将在所有主要平台上提供，包括云服务提供商、模型 API 提供商等。对于开发者而言，部署 Llama 3 变得比以往任何时候都更容易。常见的部署方式包括：

云端 API：通过 AWS、Azure 或 Meta 官方提供的 API 接口调用模型，无需管理底层基础设施。
本地部署：利用 vLLM、Ollama 等工具可以在本地 GPU 服务器上高效运行 Llama 3，适合对数据隐私有要求的场景。
私有化部署：企业可以将模型集成到内部系统中，构建专属的知识库或业务助手。

Meta 发布 Llama 3：架构、训练与性能深度解析

模型架构与训练数据

Llama 3 的训练规模与指令微调

Llama 3 的性能与评估

部署与生态建设

更多推荐文章

相关免费在线工具

技术展望

更多推荐文章

相关免费在线工具

Meta 发布 Llama 3：架构、训练与性能深度解析

模型架构与训练数据

Llama 3 的训练规模与指令微调

Llama 3 的性能与评估

部署与生态建设

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

技术展望

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具