Llama 3 AI 大模型技术总结与使用指南
Meta 正式发布了 Llama 3 系列大模型,标志着开源大模型领域的重要进展。本文将对 Llama 3 的发布信息、模型规格、性能表现及使用方法进行详细的技术总结。
1. 发布时间
Llama 3 的发布时间为北京时间 4 月 19 日 0 点 37 分。这一时间点主要依据 Meta 首席 AI 科学家 Yann LeCun 在社交媒体平台发布的公告时间确定。
2. 发布型号
目前 Llama 3 系列主要发布了两款核心模型:
- Llama 3-8B:参数量为 80 亿,适合边缘设备和快速推理场景。
- Llama 3-70B:参数量为 700 亿,提供接近闭源模型的复杂任务处理能力。
3. Llama 3 与 Llama 2 对比
相比前代产品,Llama 3 在多个维度实现了显著升级:
- 词汇量:Llama 3 的词汇表规模达到 128k,是 Llama 2(32k)的 4 倍,显著提升了对罕见词和代码的支持能力。
- 训练数据量:使用了超过 15T token 进行预训练,约为 Llama 2 的 7 倍。
- 上下文窗口:原生支持 8k 上下文长度,而 Llama 2 为 4k。虽然对于长文档处理仍有提升空间,但已满足大多数应用场景。
- 注意力机制:两个模型均采用了分组查询注意力(GQA),其中 Llama 2 仅在 70B 版本中具备该特性,而 Llama 3 全系标配,提升了推理效率。
- 整体性能:在多项基准测试中,Llama 3 的整体表现优于 Llama 2。
4. 性能测试
Llama 3 在以下五个关键基准测试中展现了强劲实力:
- MMLU(学科知识理解):涵盖人文、科学、工程等多个领域。
- GPQA(一般问题):评估通用问答能力。
- HumanEval(代码能力):衡量编程任务解决能力。
- GSM-8K(数学能力):测试基础数学推理。
- MATH(高难度数学):评估复杂数学问题解决能力。
无论是 Llama 3-8B 还是 Llama 3-70B,在上述测试中的表现均优于当前市场上的优秀大模型。为了验证现实场景性能,开发人员还构建了一套新的高质量人类评估集,包含 1,800 个提示,涵盖建议寻求、头脑风暴、分类、封闭式问答、编码、创意写作等 12 个关键用例。为避免模型过拟合,即使是开发团队也无法访问该评估集。
5. 训练数据
- 数据来源:官方声明所有数据均来自公开来源,总计超过 15T token,比 Llama 2 数据集大 7 倍。
- 多语言支持:超过 5% 的预训练数据集由涵盖 30 多种语言的高质量非英语数据组成。尽管性能水平可能不及英语,但为多语言应用奠定了基础。
- 知识库截止时间:
- 8B 模型的知识库截止至 2023 年 3 月。
- 70B 模型的知识库截止至 2023 年 12 月。
6. 如何体验与部署
6.1 在线体验平台
推荐通过 Replicate 等平台直接访问 Llama 3 接口,无需本地登录即可快速体验。
6.2 本地部署
开发者可以通过 Hugging Face Transformers 库在本地运行模型。以下是基于 Python 的基础加载示例:
from transformers import AutoTokenizer, AutoModelForCausalLM
torch
model_id =
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype=torch.float16,
device_map=
)
text =
prompt = tokenizer.apply_chat_template([{: , : text}], tokenize=, add_generation_prompt=)
tokens = tokenizer(prompt, return_tensors=).to(model.device)
output = model.generate(tokens, max_new_tokens=)
(tokenizer.decode(output[], skip_special_tokens=))


