Ollama 本地部署与运行大模型完全指南
本文详细介绍了 Ollama 在本地机器上部署和运行大型语言模型(LLM)的完整流程,涵盖安装、模型管理、自定义配置、API 集成及性能优化等核心内容。
随着大模型技术的发展,越来越多的企业和个人开始关注数据隐私与离线推理能力。虽然线上 API 提供了便利,但本地部署能确保数据不出域,且无需依赖网络状态。Ollama 作为一个开源项目,以其易用性和高性能成为本地运行 LLM 的首选工具之一。
Ollama 介绍
Ollama 是一个专为在本地机器上便捷部署和运行大型语言模型而设计的开源工具。它让用户无需深入了解复杂的底层技术,就能轻松地加载、运行和交互各种 LLM 模型。
核心特点
- 本地部署:不依赖云端服务,用户可以在自己的设备上运行模型,保护数据隐私。
- 多操作系统支持:无论是 Mac、Linux 还是 Windows,都能方便地安装使用。
- 多模型支持:支持多种流行的 LLM 模型,如 Llama、Falcon、Gemma 等,一键运行。
- 易于使用:提供了直观的命令行界面,操作简单,上手容易。
- 可扩展性:支持自定义配置,用户可以根据自己的硬件环境和模型需求进行优化。
- 开源:代码完全开放,用户可以自由查看、修改和分发。
安装指南
MacOS
苹果电脑安装非常简单,下载 Zip 包解压,运行即可。
https://ollama.com/download/Ollama-darwin.zip
安装运行 Ollama.app 之后,系统任务栏上会有一个应用程序图标,点击可以关闭 Ollama 服务。
Windows
Windows 版本目前处于预览版,官方也提供了安装包,安装过程与其他软件类似。
https://ollama.com/download/OllamaSetup.exe
Linux
Linux 系统直接通过 Shell 脚本执行安装命令:
curl -fsSL https://ollama.com/install.sh | sh
Docker 容器化运行
除了直接安装,还可以通过 Docker 运行。官方提供了镜像 ollama/ollama。
CPU 模式
CPU 模式不需要额外配置驱动,直接运行即可:
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
NVIDIA GPU 模式
若要在容器内使用 Nvidia GPU 进行推理,需要安装 NVIDIA Container Toolkit。
- 安装 NVIDIA GPU 驱动程序及工具包(以 Ubuntu 为例):
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \
&& curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
sudo /etc/apt/sources.list.d/nvidia-container-toolkit.list
apt-get update
apt-get install -y nvidia-container-toolkit


