Meta 在官网上官宣了 Llama-3,作为继 Llama1、Llama2 和 CodeLlama 之后的第三代模型,Llama3 在多个基准测试中实现了全面领先,性能优于业界同类最先进的模型。本文将分享如何在 Groq 上以超过 800 tokens/s 的推理速度体验 Llama3,并详细介绍 Web 端、移动端、API 方式以及集成到 LangChain 中的四种体验方案。
Groq 的性能表现
Llama3 8B 在 Groq 平台上可实现每秒钟 876 tokens 的输出速度,人眼基本跟不上模型的输出速度。要知道 Llama3 8B 的质量与 GPT-3.5 和 Llama2 70B 相似,可以显著提升一些常见的 AI 应用场景的用户体验。在 RAG(检索增强生成)场景中,性能瓶颈不再是 LLM,而是 Retrieval。这意味着 HyDE(假设文档嵌入)、LLM 重排序器等模块不再是链路速度的瓶颈。
实测结果显示,Llama3 70B 的实际体验结果甚至高于部分测评数据。
Groq 为何如此快速
Groq 开发出了一种新的 AI 处理器 —— LPU(Language Processing Unit),其推理速度相较于英伟达 GPU 提高了 10 倍。主要原因包括:
- 专业优化:LPU 专门针对语言模型推理任务进行了优化,特别是在序列处理方面。
- 创新架构:LPU 采用了一种新的计算模式,能够高效地按顺序处理任务,而不是并行处理。
- 软件先行:Groq 在硬件开发前就创新了软件和编译器,以确保芯片间的高效通信。
- 内存与处理单元的整合:LPU 的设计使得数据流局部性得到更好的利用。
- 针对性能和成本的优化:LPU 在设计时就注重了性能提升和成本降低。
四种 Groq 体验方案
1. Web 端
无需登录,即可直接在网页版进行尝试。当前支持的模型有 Llama3 8B-4k、Llama3 70B-8k、Llama2 70B-8k、Mixtral 8X7B-32k、Gemma 7B-it。用户可以直接访问平台入口,输入提示词即可获得即时响应。
2. 移动端
Groq 的 iOS 应用已经推出,目前不需要登录即可使用。用户可以通过 TestFlight 安装地址获取测试版本。支持的模型包括 Llama3 8B、Llama3 70B、Llama2 70B、Mixtral 8X7B、Gemma 7B。移动端适合碎片化时间的交互体验。
3. API 调用
开发者可以通过 API 将 Llama3 集成到自己的应用中。首先前往官方控制台申请好 API-KEY。
安装依赖库
pip install groq
调用示例
import os
from groq import Groq
# 从环境变量读取 API Key,避免硬编码
client = Groq(
api_key=os.environ.get("GROQ_API_KEY"),
)
try:
llm = client.chat.completions.create(
messages=[
{
"role": "user",
"content": "编写一篇中国神话故事,篇幅 500~800 字,必须使用中文输出",
}
],
model="llama3-70b-8192",
temperature=0.7,
max_tokens=1024
)
(llm.choices[].message.content)
Exception e:
()


