北京时间 4 月 19 日凌晨,Meta 在官网上官宣了 Llama-3。作为继 Llama1、Llama2 和 CodeLlama 之后的第三代模型,Llama3 在多个基准测试中实现了全面领先,性能优于业界同类最先进的模型。
Groq 有多快
先看两组数据对比。


Llama3 8B 每秒钟 876 tokens 的输出速度,人眼基本跟不上模型的输出速度了。要知道 Llama3 8B 的质量与 GPT-3.5 和 Llama2 70B 相似,可以显著提升一些常见的 AI 应用场景的用户体验。RAG(检索增强生成)的性能瓶颈不再是 LLM,而是 Retrieval。这意味着 HyDE(假设文档嵌入,利用 LLMs 生成假设性答案,以增强文档检索的准确性)、LLM 重排序器(对检索到的文档进行重排序,以优先选择最相关和上下文适当的信息)不再是 RAG 链路速度瓶颈。
初看数据,我以为是个噱头,本着务实的态度,我自己实际体验了一把,大家自己看 👇


结果 Llama3 70B 的实际体验结果比测评数据还高。
Groq 为什么这么快
源于 Groq 开发出了一种新的 AI 处理器 ——LPU(Language Processing Unit),其推理速度相较于英伟达 GPU 提高了 10 倍。
- 专业优化:LPU 专门针对语言模型推理任务进行了优化,特别是在序列处理方面。
- 创新架构:LPU 采用了一种新的计算模式,能够高效地按顺序处理任务,而不是并行处理。
- 软件先行:Groq 在硬件开发前就创新了软件和编译器,以确保芯片间的高效通信。
- 内存与处理单元的整合:LPU 的设计使得数据流局部性得到更好的利用。
- 针对性能和成本的优化:LPU 在设计时就注重了性能提升和成本降低。
4 种 Groq 体验方案
1. Web 端
无需登录,即可直接在网页版进行尝试,地址指路 👉 groq.com。当前支持的模型有 Llama3 8B-4k、Llama3 70B-8k、Llama2 70B-8k、Mixtral 8X7B-32k、Gemma 7B-it。
优点:零门槛,适合快速验证想法。 缺点:依赖浏览器环境,不适合集成到生产系统。
2. 移动端
Groq 的 iOS 应用已经推出,目前不需要登录即可使用,通过下面的 TestFlight 安装地址:testflight.apple.com,支持的模型有 Llama3 8B、Llama3 70B、Llama2 70B、Mixtral 8X7B、Gemma 7B。



