离线 Linux 服务器部署 Ollama 并运行 Qwen 大模型教程
1. 概述
Ollama 是一个用于在本地运行大型语言模型(LLM)的开源工具,它简化了模型的下载、管理和推理过程。对于需要数据隐私或网络受限环境的场景,在离线 Linux 服务器上部署 Ollama 并加载如 Qwen2.5 等开源模型是一种高效方案。本文档将详细介绍从环境准备到模型运行的完整技术流程。
2. 环境准备与硬件要求
在开始部署前,请确保服务器满足以下基本硬件和软件条件:
- 操作系统:推荐 Ubuntu 20.04+ 或 CentOS 7+,内核版本建议 5.x 以上。
- CPU 架构:支持 x86_64 (AMD/Intel) 或 ARM64 (Apple Silicon, AWS Graviton, etc.)。
- 内存 (RAM):至少 8GB,建议 16GB 或以上以流畅运行中等规模模型。
- 存储:根据模型大小预留空间,Qwen2.5-1.5B 约需 1GB,7B 版本约需 4-5GB。
- GPU (可选):虽然 CPU 可运行,但配备 NVIDIA GPU 并安装 CUDA 驱动可显著提升推理速度。
2.1 检查系统信息
使用以下命令确认 CPU 架构和系统版本:
# 查看 Linux 发行版版本
cat /etc/os-release
# 查看 CPU 架构
lscpu | grep Architecture
若架构为 x86_64,请下载 ollama-linux-amd64;若为 aarch64 或 arm64,请下载 ollama-linux-arm64。
3. 安装 Ollama
由于目标服务器处于离线状态,需在联网机器上完成下载,再通过传输介质(如 USB 硬盘、内网 SCP)上传至离线服务器。
3.1 下载安装包
在有网络的终端执行下载(以 AMD64 为例):
wget https://github.com/ollama/ollama/releases/download/v0.1.39/ollama-linux-amd64.tgz
*注意:版本号可能随时间更新,请前往 GitHub Releases 页面获取最新稳定版链接。
3.2 解压与安装
将下载的 .tgz 文件上传至离线服务器后,执行以下操作:
# 解压到 /usr 目录
sudo tar -C /usr -xzf ollama-linux-amd64.tgz
# 验证安装路径
ls /usr/local/bin/ollama
3.3 启动服务
默认情况下,Ollama 会监听本地端口 11434。启动服务:
# 前台启动测试
ollama serve
若需后台运行,建议使用 systemd 配置服务。创建 /etc/systemd/system/ollama.service 文件:
[Unit]
Description=Ollama Service
=network-line.target
=/usr/local/bin/ollama serve
=always
=
=ollama
=ollama
=
=default.target


