Meta Llama 3.1 简介
Meta 于美国当地时间 7 月 23 日发布了 Llama 3.1 系列大语言模型。该系列包含 8B、70B 和 405B 三种参数规模,最大上下文窗口提升至 128k tokens。在常识推理、数学计算、代码生成及多语言翻译等任务上,Llama 3.1 表现优异,部分能力可媲美 GPT-4o。

环境准备
在开始部署前,请确保您的设备满足以下基本要求:
- 操作系统:macOS (12.0+), Windows (10/11), Linux (Ubuntu 20.04+)
- 内存 (RAM):
- 8B 模型:建议至少 8GB RAM
- 70B 模型:建议至少 64GB RAM
- 405B 模型:建议至少 256GB RAM
- 显卡 (GPU):推荐使用 NVIDIA GPU (CUDA) 以获得最佳推理速度;Apple Silicon (M1/M2/M3) 支持良好但显存受限。
- 磁盘空间:根据模型量化版本不同,需预留 5GB 至 200GB 不等的空间。
安装 Ollama
Ollama 是一个开源的大模型管理工具,支持模型的下载、运行和管理。它简化了本地部署流程,无需复杂的依赖配置。
1. 下载并安装
访问官网 https://ollama.com/download 获取对应操作系统的安装包。
- macOS / Windows:直接运行
.dmg或.exe文件,按照向导完成安装(Next -> Finish)。 - Linux:使用官方脚本安装:
curl -fsSL https://ollama.com/install.sh | sh
安装完成后,Ollama 服务将自动在后台启动。
2. 验证安装
在终端中执行以下命令检查版本:
ollama --version
运行 Llama 3.1 模型
1. 拉取模型
在命令行中输入以下命令下载 Llama 3.1 8B 模型:
ollama run llama3.1
首次运行时会自动从仓库拉取模型文件,并根据系统资源选择默认量化版本(通常为 Q4_K_M)。
2. 交互测试
模型加载成功后,即可进入对话模式。您可以尝试输入自然语言问题、编程任务或数学题。
示例交互:
> what's your name?
I am Llama 3.1, a large language model trained by Meta.
> 请用 Python 写一个快速排序算法
def quick_sort(arr):
if len(arr) <= 1:
return arr
pivot = arr[len(arr) // 2]
left = [x for x in arr if x < pivot]
middle = [x for x in arr if x == pivot]
right = [x for x in arr if x > pivot]
return quick_sort(left) + middle + quick_sort(right)

