本地运行 Llama3 极简教程
Ollama 是一个简化的工具,用于在本地运行开源大语言模型(LLM),包括 Mistral、Llama 2 和 Llama 3 等。Ollama 将模型权重、配置和数据集捆绑到一个由 Modelfile 管理的统一包中,支持各种 LLM。
支持的模型列表
| Model | Parameters | Size |
|---|---|---|
| Llama 3 | 8B | 4.7GB |
| Llama 3 | 70B | 40GB |
| Mistral | 7B | 4.1GB |
| Dolphin Phi | 2.7B | 1.6GB |
| Phi-2 | 2.7B | 1.7GB |
| Neural Chat | 7B | 4.1GB |
| Starling | 7B | 4.1GB |
| Code Llama | 7B | 3.8GB |
| Llama 2 Uncensored | 7B | 3.8GB |
| Llama 2 13B | 13B | 7.3GB |
| Llama 2 70B | 70B | 39GB |
| Orca Mini | 3B | 1.9GB |
| LLaVA | 7B | 4.5GB |
| Gemma | 2B | 1.4GB |
| Gemma | 7B | 4.8GB |
| Solar | 10.7B | 6.1GB |
官方地址:https://ollama.com/
安装 Ollama
macOS 和 Linux
从官方网站下载并安装。对于 MacOS 和 Linux 用户,可以使用以下命令一键安装:
curl -fsSL https://ollama.com/install.sh | sh
Windows
Windows 原生支持预览版,但部分用户可能遇到兼容性问题。推荐使用 WSL (Windows Subsystem for Linux) 在 Ubuntu 上运行。
在 WSL 中安装 CUDA 加速
前提是你的显卡是英伟达的,可以安装用来加速模型的推理,否则就要靠 CPU,回答的速度会降低很多!
- 确保已安装 WSL2。
- 参考 NVIDIA 官方文档或社区指南安装 CUDA Toolkit。
- 验证驱动是否生效:
nvidia-smi
运行 Llama3
安装完成后,输入以下命令启动模型:


