Llama 3.1 本地部署指南:Ollama、OpenWeb UI 与 Spring AI
本文介绍如何使用 Ollama 在本地部署 Llama 3.1:8B 模型,并通过 OpenWeb UI 和 Spring AI 来增强模型交互体验和简化 API 的调用过程。
Ollama
Ollama 是一个开源的大语言模型服务工具,旨在简化大模型的本地部署和运行过程。用户只需要输入一行命令(如:ollama run llama3.1),即可在本地硬件环境中部署和使用大语言模型。Ollama 还提供了 REST API 接口,下文中会介绍如何使用 Spring AI 集成 Ollama,实现与大模型 API 接口的交互。
系统要求与资源
本机运行不同参数量的模型对内存有明确要求:
- 7B 参数量:至少需要 8GB 内存。
- 13B 参数量:至少需要 16GB 内存。
- 33B 参数量:至少需要 32GB 内存。
对于 Llama 3.1 系列,推荐配置如下:
| 模型 | 参数 | 大小 | 使用命令 |
|---|---|---|---|
| Llama 3.1 | 8B | 4.7GB | ollama run llama3.1 |
| Llama 3.1 | 70B | 40GB | ollama run llama3.1:70b |
| Llama 3.1 | 405B | 231GB | ollama run llama3.1:405b |
| Gemma 2 | 9B | 5.5GB | ollama run gemma2 |
| Gemma 2 | 27B | 16GB | ollama run gemma2:27b |
| qwen2 | 7B | 4.4GB | ollama run qwen2 |
| qwen2 | 72B | 41GB | ollama run qwen2:72b |
| glm4 | 9B | 5.5GB | ollama run glm4 |
安装与下载
访问 Ollama 官网,选择操作系统,然后点击 download 按钮进行下载。操作系统要求 MacOS 11 和 Windows 10 及以上版本。下载完成后的 Ollama 其实是一个命令行工具,我们可以直接在终端中使用 Ollama。(执行 ollama --help 可查看 Ollama 提供的命令)
模型管理命令
除了运行模型,Ollama 提供了丰富的 CLI 命令用于管理本地模型库:
# 列出所有已下载的模型
ollama list
# 拉取新模型
ollama pull llama3.1:8b
# 删除不需要的模型以释放空间
ollama rm llama3.1:70b
ollama ps
ollama stop llama3.1


