Meta Llama 3 发布:性能媲美 GPT-4 的开源大模型详解
前言
Meta 最新发布的语言模型 Llama 3 标志着大型语言模型(LLM)领域的一次重大突破。其性能在行业内与 GPT-4 相媲美,将开源模型的性能推向了一个新的高度。此次更新不仅提升了模型的处理能力和精确性,还引入了多项关键架构改进。
官方模型下载链接:https://huggingface.co/meta-llama
核心特性与规格
Llama 3 的主要亮点包括以下技术规格:
- 训练数据:基于超过 15T token 训练,相当于 Llama 2 数据集的 7 倍还多;代码数据量是 Llama 2 的 4 倍。
- 上下文窗口:支持 8K 长文本,改进的 tokenizer 具有 128K token 的词汇量,可实现更好的性能。
- 推理效率:训练效率比 Llama 2 高 3 倍。
- 安全工具:带有 Llama Guard 2、Code Shield 和 CyberSec Eval 2 的新版信任和安全工具。
架构优化细节
为了开发出出色的语言模型,Meta 采用了四个关键要素的设计理念:模型架构、预训练数据、扩展预训练和指令微调。
- 分组查询注意力(GQA):通过实施 GQA 技术,Llama 3 在维持高精度的同时,显著提升了运算速度和效率。这使得模型在处理长序列时更加流畅。
- RoPE 位置编码:采用旋转位置编码(Rotary Positional Embeddings),增强了模型对长上下文的理解能力。
- SwiGLU 激活函数:使用 SwiGLU 作为激活函数,进一步提升了模型的表达能力。
基准测试和实际应用表现
在多个重要的行业基准测试中,Llama 3 均展示了其领先的性能。这包括在自然语言理解、机器翻译、文本摘要和代码生成等任务上的应用。
性能对比
| 模型 | 参数规模 | MMLU (知识) | GSM8K (数学) | HumanEval (代码) |
|---|---|---|---|---|
| Llama 2 70B | 70B | 68.9 | 58.5 | 33.0 |
| Llama 3 8B | 8B | 66.2 | 51.5 | 37.0 |
| Llama 3 70B | 70B | 82.0 | 81.9 | 81.9 |
| GPT-3.5 | - | ~65 | ~50 | ~30 |
| GPT-4 | - |


