使用 Ollama 本地部署 Llama 3.1 大模型指南
1. Llama 3.1 介绍
2024 年 7 月 24 日,Meta 宣布推出迄今为止最强大的开源模型——Llama 3.1 405B。该模型支持上下文长度为 128K Tokens,增加了对八种语言的支持,号称第一个在常识、可操纵性、数学、工具使用和多语言翻译方面与顶级人工智能模型相媲美的模型。
当然,405B 新一代大模型所需要的算力成本是巨大的,一般的中小型企业和个人需要慎重评估一下成本与产出是否值得应用。好在作为新版本发布的一部分,官方也同时推出了全新升级的 Llama 3.1 70B 和 8B 模型版本,更适合个人开发者和中小企业部署。
本文将详细介绍如何在本地或云服务器上通过 Ollama 工具部署并体验最新的 Llama 3.1 8B 模型。
2. 环境准备
2.1 硬件环境要求
- GPU: 建议 NVIDIA GPU。民用卡推荐 RTX 30/40 系列,商用卡推荐 T4、V100、A10 等系列。
- 显存:
- Llama 3.1 8B: 至少 8GB 显存(推荐 12GB+)。
- Llama 3.1 70B: 至少 48GB 显存(推荐 A100/H100)。
- Llama 3.1 405B: 需要多卡集群,显存需求极高。
- 内存: 服务器配置建议最低为 8 核 32GB 内存,100GB 以上磁盘空间。
- 操作系统: Windows Server 2022, Linux (Ubuntu/CentOS), macOS。
2.2 软件环境
- CUDA Toolkit: 建议安装 CUDA 12.x 版本以匹配最新驱动。
- Ollama: 最新版本客户端。
- Python: 若需使用 WebUI 或 API 调用,建议 Python 3.10 或 3.11 版本。
3. 安装步骤
3.1 安装 GPU 驱动程序
如果您使用的是云服务器或自建机器,首先需要确保 GPU 驱动已正确安装。
- 访问 NVIDIA 官方驱动下载地址。
- 选择相应的显卡型号和操作系统下载驱动。
- 安装完成后,重启系统。
- 在命令行输入
nvidia-smi确认驱动正常加载。
3.2 安装 Ollama 客户端
Windows 系统
- 从 Ollama 官方网站下载 Windows 安装包。
- 运行安装程序,默认路径即可。
- 安装完毕后,右下角托盘区会出现 Ollama 图标,表示服务已启动。
- 打开 PowerShell 或 CMD,输入
ollama --version验证安装。
Linux 系统
curl -fsSL https://ollama.com/install.sh | sh
3.3 拉取模型文件
在命令行中输入以下命令在线拉取模型:
ollama run llama3.1:8b
如果您的显卡性能足够强大,可以尝试其他版本:
ollama run llama3.1:70b
ollama run llama3.1:405b
首次运行会自动下载模型权重到本地目录,请耐心等待下载完成。出现 success 提示时,说明模型加载完成。
4. 模型配置与远程访问
Ollama 启动的默认地址为 ,仅允许本地访问。为了支持远程调用或 WebUI 集成,需要修改环境变量。


