Meta Llama 3 发布:性能媲美 GPT-4 的开源大模型详解
Meta Llama 3 正式发布,基于 15T token 训练,支持 8K 上下文。采用分组查询注意力(GQA)技术提升效率。在推理和代码能力上显著优于前代,部分基准测试表现接近 GPT-4。提供 8B 和 70B 参数版本,未来将推出更大规模模型。包含 Llama Guard 2 等安全工具。本文介绍其核心特性、架构优化及部署方式。

Meta Llama 3 正式发布,基于 15T token 训练,支持 8K 上下文。采用分组查询注意力(GQA)技术提升效率。在推理和代码能力上显著优于前代,部分基准测试表现接近 GPT-4。提供 8B 和 70B 参数版本,未来将推出更大规模模型。包含 Llama Guard 2 等安全工具。本文介绍其核心特性、架构优化及部署方式。

Meta 最新发布的语言模型 Llama 3 标志着大型语言模型(LLM)领域的一次重大突破。其性能在行业内与 GPT-4 相媲美,将开源模型的性能推向了一个新的高度。此次更新不仅提升了模型的处理能力和精确性,还引入了多项关键架构改进。
官方模型下载链接:https://huggingface.co/meta-llama
Llama 3 的主要亮点包括以下技术规格:
为了开发出出色的语言模型,Meta 采用了四个关键要素的设计理念:模型架构、预训练数据、扩展预训练和指令微调。
在多个重要的行业基准测试中,Llama 3 均展示了其领先的性能。这包括在自然语言理解、机器翻译、文本摘要和代码生成等任务上的应用。
| 模型 | 参数规模 | MMLU (知识) | GSM8K (数学) | HumanEval (代码) |
|---|---|---|---|---|
| Llama 2 70B | 70B | 68.9 | 58.5 | 33.0 |
| Llama 3 8B | 8B | 66.2 | 51.5 | 37.0 |
| Llama 3 70B | 70B | 82.0 | 81.9 | 81.9 |
| GPT-3.5 | - | ~65 | ~50 | ~30 |
| GPT-4 | - | ~85 | ~85 | ~85 |
注:部分数据基于公开评测结果,具体数值可能随评测集更新而变化。
在后训练过程中,Meta 对模型进行了大量优化,显著降低了错误拒绝率,增强了模型响应的一致性和多样性。这使得 Llama 3 在实际应用中更加可靠,能够更好地适应不同用户的需求和各种复杂的查询。
Meta 开发了一套新的高质量人类评估数据集。该评估集包含 1800 个提示,涵盖 12 个关键用例:寻求建议、头脑风暴、分类、封闭式问答、编码、创意写作、提取、塑造角色、开放式问答、推理、重写和总结。
为了防止模型在此评估集上出现过度拟合,Meta 表示他们自己的团队也无法访问该数据集。此外,新版安全工具包括:
推荐使用 Python 3.10+ 环境,并安装必要的依赖库。
pip install torch transformers accelerate bitsandbytes
以下是使用 Hugging Face transformers 库加载 Llama 3 并进行推理的示例代码:
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
model_id = "meta-llama/Meta-Llama-3-8B-Instruct"
# 加载分词器和模型
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype=torch.float16,
device_map="auto",
)
# 构建输入 prompt
messages = [
{"role": "user", "content": "请简述 Transformer 架构的核心组件。"}
]
prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
# 生成输出
outputs = model.generate(**inputs, max_new_tokens=256)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
为了降低显存占用,可以使用量化技术进行部署。例如使用 bitsandbytes 进行 4bit 量化:
from transformers import BitsAndBytesConfig
bnb_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_quant_type="nf4",
bnb_4bit_compute_dtype=torch.float16
)
model = AutoModelForCausalLM.from_pretrained(
model_id,
quantization_config=bnb_config,
device_map="auto"
)
目前 Llama 3 的 8B 和 70B 参数模型已经发布,但 Meta 已经在准备发布更大规模的 400B+ 参数模型。这将进一步提高模型的性能和多样性,尤其是在多模态和多语言处理方面。这些模型预计将在未来几个月内推出,进一步推动 AI 技术的发展边界。
除了基本的模型更新外,Meta 也在积极开发多模态版本的 Llama 3,以支持图像、视频和语音等多种数据类型的处理。这将大大扩展模型的应用范围,从传统的文本处理扩展到更广泛的 AI 应用场景。
Meta Llama 3 的推出不仅证明了其在全球 AI 领域的领导地位,还预示着大型开源语言模型发展的新方向。随着技术的进步和模型性能的不断提升,Llama 3 将在全球范围内对 AI 应用产生深远的影响,推动从简单的文本处理到复杂的多模态交互的转变。对于开发者而言,掌握 Llama 3 的部署与微调技能,将是进入大模型时代的重要一步。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online