Llama 3.1 正式发布
Meta 在今年 4 月发布了第三代开源模型 Llama 3,当时表示模型仍在训练中。不到三个月后,Llama 3.1 已正式发布。
核心亮点
从官方发布的信息来看,Llama 3.1 具有以下关键特性:
- 上下文长度扩展:模型上下文长度扩充至 128K,相比 Llama 2 的 4k~8k 有显著提升。
- 参数规模覆盖:提供 8B、70B 和 405B 三种开源版本。
- 性能表现:在多个测试集上效果优于 OpenAI 的 GPT-4o 模型。
- 训练数据:基于公开的 15T token 数据进行训练。
- 微调策略:使用公开指令微调数据集,并合成 1500 万个样本进行优化。
- 多语言支持:支持法语、德语、印地语、意大利语、葡萄牙语、西班牙语和泰语等。
基准测试结果
对比数据显示,Llama 3.1 405B 模型在多项基准测试中超越了 GPT-4o。具体包括 BoolQ、GSM8K、HellaSwag 等任务表现更优。仅在 HumanEval、MMLU-social sciences、TruthfulQA_mc1 三项测试中略低于 GPT-4o。
此外,较小的 70B 和 8B 模型在与相似参数量的其他模型对比时,也展现出更强的竞争力。
模型架构与训练
Meta 在训练过程中使用了 15 万亿 token,并在约 16000 张 H100 GPU 上进行训练。针对 405B 的大参数量级,Meta 采取了以下关键技术决策:
- 架构选择:未采用 MoE(混合专家)架构,而是仅使用 Decoder-only Transformer。这是因为 MoE 架构在训练时往往不稳定且难以收敛。
- 后训练技术:每次迭代均利用有监督微调和偏好优化。通过高质量合成数据提升模型在下游任务中的性能。
实测表现分析
在实际测试中,Llama 3.1 展现了不同的能力特征:
- 数学逻辑:在处理基础数值比较时仍可能出现错误,例如判断 9.9 和 9.11 的大小。
- 情绪识别:对句子中的表情符号和情绪表达识别较为准确。
- 伦理推理:在涉及伦理逻辑的问题上(如'赵三的父母结婚为什么没邀请自己'),模型能正确理解人物关系并给出合理回答。
部署成本与性价比
虽然 405B 大模型在部分指标上超越了 GPT-4o,但本地部署面临巨大挑战:
- 硬件门槛:运行如此大规模的模型需要极高的显存和算力资源,普通用户难以在个人电脑上运行,本质上更接近调用 API 的体验。
- 竞品对比:OpenAI 近期发布的 GPT-4o mini 在性能超越 GPT-3.5 的同时,价格大幅降低。其定价为每 100 万输入 token 15 美分,输出 token 60 美分,且推理速度更快。
- 推理速度:即使经过优化,Llama 3.1 的推理速度较慢,高硬件要求劝退了许多开发者。
总结
OpenAI 正在聚焦小模型市场,GPT-4o mini 凭借高性价比成为有力竞争者。对于坚持开源路线的 Llama 3.1 而言,未来需要在保持性能优势的同时,进一步优化推理效率与部署成本,使其成为更广泛开发者可用的工具。开源社区需持续推动模型压缩与量化技术的发展,以平衡性能与可访问性。


