离线 Linux 服务器部署 Ollama 并运行 Qwen 大模型教程 | 极客日志

Shell / BashAI

离线 Linux 服务器部署 Ollama 并运行 Qwen 大模型教程

介绍在离线 Linux 环境下部署 Ollama 框架及运行 Qwen2.5 大模型的完整流程。涵盖环境检查、Ollama 安装配置、模型格式转换（Safetensors 转 GGUF）、Modelfile 编写及模型导入步骤。同时提供命令行交互、API 调用方式及常见故障排查指南，帮助用户实现本地私有化大模型部署。

晚风叙旧发布于 2025/2/7更新于 2026/6/220 浏览

离线 Linux 服务器部署 Ollama 并运行 Qwen 大模型教程

1. 概述

Ollama 是一个用于在本地运行大型语言模型（LLM）的开源工具，它简化了模型的下载、管理和推理过程。对于需要数据隐私或网络受限环境的场景，在离线 Linux 服务器上部署 Ollama 并加载如 Qwen2.5 等开源模型是一种高效方案。本文档将详细介绍从环境准备到模型运行的完整技术流程。

2. 环境准备与硬件要求

在开始部署前，请确保服务器满足以下基本硬件和软件条件：

操作系统：推荐 Ubuntu 20.04+ 或 CentOS 7+，内核版本建议 5.x 以上。
CPU 架构：支持 x86_64 (AMD/Intel) 或 ARM64 (Apple Silicon, AWS Graviton, etc.)。
内存 (RAM)：至少 8GB，建议 16GB 或以上以流畅运行中等规模模型。
存储：根据模型大小预留空间，Qwen2.5-1.5B 约需 1GB，7B 版本约需 4-5GB。
GPU (可选)：虽然 CPU 可运行，但配备 NVIDIA GPU 并安装 CUDA 驱动可显著提升推理速度。

2.1 检查系统信息

使用以下命令确认 CPU 架构和系统版本：

# 查看 Linux 发行版版本
cat /etc/os-release

# 查看 CPU 架构
lscpu | grep Architecture

若架构为 x86_64，请下载 ollama-linux-amd64；若为 aarch64 或 arm64，请下载 ollama-linux-arm64。

3. 安装 Ollama

由于目标服务器处于离线状态，需在联网机器上完成下载，再通过传输介质（如 USB 硬盘、内网 SCP）上传至离线服务器。

3.1 下载安装包

在有网络的终端执行下载（以 AMD64 为例）：

wget https://github.com/ollama/ollama/releases/download/v0.1.39/ollama-linux-amd64.tgz

*注意：版本号可能随时间更新，请前往 GitHub Releases 页面获取最新稳定版链接。

3.2 解压与安装

将下载的 .tgz 文件上传至离线服务器后，执行以下操作：

# 解压到 /usr 目录
sudo tar -C /usr -xzf ollama-linux-amd64.tgz

# 验证安装路径
ls /usr/local/bin/ollama

3.3 启动服务

默认情况下，Ollama 会监听本地端口 11434。启动服务：

# 前台启动测试
ollama serve

若需后台运行，建议使用 systemd 配置服务。创建 /etc/systemd/system/ollama.service 文件：

[Unit]
Description=Ollama Service
=network-line.target


=/usr/local/bin/ollama serve
=always
=
=ollama
=ollama
=


=default.target

相关免费在线工具

RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online

sudo systemctl daemon-reload
sudo systemctl enable ollama
sudo systemctl start ollama

systemctl status ollama

# 安装 Git LFS
sudo apt-get install git-lfs
sudo git lfs install

# 克隆 Qwen2.5-1.5B-Instruct 模型
mkdir qwen_models && cd qwen_models
git clone https://www.modelscope.cn/Qwen/Qwen2.5-1.5B-Instruct.git
cd Qwen2.5-1.5B-Instruct

# 克隆 Ollama 主仓库（仅用于获取转换脚本）
git clone https://github.com/ollama/ollama.git
ollama_dir=$(pwd)/ollama
cd $ollama_dir

# 初始化子模块
git submodule init
git submodule update llm/llama.cpp

# 设置 Python 虚拟环境
python3 -m venv llm/llama.cpp/.venv
source llm/llama.cpp/.venv/bin/activate
pip install -r llm/llama.cpp/requirements.txt

# 假设模型文件位于 ./Qwen2.5-1.5B-Instruct/model.safetensors
python llm/llama.cpp/convert_hf_to_gguf.py \
    --outfile converted.bin \
    --outtype f16 \
    ./Qwen2.5-1.5B-Instruct

FROM converted.bin

TEMPLATE """{{ if .System }}<|im_start|>system
{{ .System }}<|im_end|>
{{ end }}{{ if .Prompt }}<|im_start|>user
{{ .Prompt }}<|im_end|>
{{ end }}<|im_start|>assistant
"""

SYSTEM """
你是一个乐于助人的助手，但你会用 20 世纪 30 年代黑手党暴徒的风格去回答问题
"""

PARAMETER temperature 0.7
PARAMETER top_p 0.9

ollama create Qwen2.5-Mafia -f Modelfile

ollama list
ollama show Qwen2.5-Mafia

ollama run Qwen2.5-Mafia

curl http://localhost:11434/api/generate -d '{
  "model": "Qwen2.5-Mafia",
  "prompt": "你好，你是谁？",
  "stream": false
}'

# 查看正在运行的进程
ollama ps

python llm/llama.cpp/quantize.py converted.bin Q4_K_M.gguf

离线 Linux 服务器部署 Ollama 并运行 Qwen 大模型教程

离线 Linux 服务器部署 Ollama 并运行 Qwen 大模型教程

1. 概述

2. 环境准备与硬件要求

2.1 检查系统信息

3. 安装 Ollama

3.1 下载安装包

3.2 解压与安装

3.3 启动服务

更多推荐文章

相关免费在线工具

4. 准备 Qwen2.5 模型

4.1 下载模型权重

4.2 转换模型格式

4.2.1 获取转换工具

4.2.2 执行转换

5. 编写 Modelfile 并导入

5.1 创建 Modelfile

5.2 导入模型

6. 运行与交互

6.1 命令行交互

6.2 API 调用

6.3 查看运行状态

7. 高级优化与故障排查

7.1 量化压缩

7.2 常见问题

7.3 安全建议

8. 结语

更多推荐文章

相关免费在线工具

离线 Linux 服务器部署 Ollama 并运行 Qwen 大模型教程

离线 Linux 服务器部署 Ollama 并运行 Qwen 大模型教程

1. 概述

2. 环境准备与硬件要求

2.1 检查系统信息

3. 安装 Ollama

3.1 下载安装包

3.2 解压与安装

3.3 启动服务

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

4. 准备 Qwen2.5 模型

4.1 下载模型权重

4.2 转换模型格式

4.2.1 获取转换工具

4.2.2 执行转换

5. 编写 Modelfile 并导入

5.1 创建 Modelfile

5.2 导入模型

6. 运行与交互

6.1 命令行交互

6.2 API 调用

6.3 查看运行状态

7. 高级优化与故障排查

7.1 量化压缩

7.2 常见问题

7.3 安全建议

8. 结语

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具