Ollama 本地部署教程:Windows/Linux/Mac 安装与使用指南
本文详细介绍了 Ollama 在 Windows、Linux 和 MacOS 上的本地部署方法,涵盖脚本安装、二进制安装及系统服务配置。内容包含基础命令使用、自定义模型路径设置、HuggingFace 模型导入以及常见问题排查。通过本教程,开发者可快速搭建本地大模型环境,实现离线运行与个性化配置。

本文详细介绍了 Ollama 在 Windows、Linux 和 MacOS 上的本地部署方法,涵盖脚本安装、二进制安装及系统服务配置。内容包含基础命令使用、自定义模型路径设置、HuggingFace 模型导入以及常见问题排查。通过本教程,开发者可快速搭建本地大模型环境,实现离线运行与个性化配置。

Ollama 是一个支持在 Windows、Linux 和 MacOS 上本地运行大语言模型的工具。它允许用户非常方便地运行和使用各种大语言模型,比如 Qwen 模型等。用户只需一行命令就可以启动模型。
主要特点包括:
总的来说,Ollama 降低了普通开发者使用大语言模型的门槛,使得本地部署体验大模型变得简单易行。对于想要搭建自己的 AI 应用,或者针对特定任务调优模型的开发者来说,是一个非常有用的工具。
直接从下载页面下载相对应系统的安装程序,选择 Download for Windows(Preview)。
下载好以后一路 install 安装即可。安装完成之后,打开一个 cmd 命令窗口,输入 ollama 命令,如果显示 ollama 相关的信息就证明安装已经成功了。
直接从下载页面下载相对应系统的安装程序,点击 Download for Mac。
下载好后打开安装命令行,按照提示完成安装。
在 Linux 系统上,可以通过脚本安装或源码编译的方式来安装 Ollama。
Ollama 提供了一键安装脚本,可以快速在 Linux 系统上安装 Ollama。安装步骤如下:
打开终端,执行以下命令下载安装脚本:
curl -fsSL https://ollama.com/install.sh | sh
等待安装完成。安装脚本会自动下载所需的组件,并完成 Ollama 的安装与配置。
安装完成后,可以通过以下命令启动 Ollama:
ollama serve
将 Ollama 的二进制文件下载到 PATH 中的目录:
sudo curl -L https://ollama.com/download/ollama-linux-amd64 -o /usr/bin/ollama
sudo chmod +x /usr/bin/ollama
将 Ollama 添加为自启动服务,首先,为 Ollama 创建用户:
sudo useradd -r -s /bin/false -m -d /usr/share/ollama ollama
然后在该位置 /etc/systemd/system/ollama.service 创建服务文件:
[Unit]
Description=Ollama Service
After=network-online.target
[Service]
ExecStart=/usr/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3
[Install]
WantedBy=default.target
设置开机自启动:
sudo systemctl daemon-reload
sudo systemctl enable ollama
启动 Ollama,使用以下命令启动 systemd:
sudo systemctl start ollama
设置 OLLAMA_VERSION 字段,可以安装对应的版本:
curl -fsSL https://ollama.com/install.sh | OLLAMA_VERSION=0.3.13 sh
更新:通过 shell 脚本更新 Ollama:
curl -fsSL https://ollama.com/install.sh | sh
或者下载 Ollama 二进制文件覆盖。
卸载:
sudo systemctl stop ollama
sudo systemctl disable ollama
sudo rm /etc/systemd/system/ollama.service
sudo rm $(which ollama)
sudo rm -r /usr/share/ollama
sudo userdel ollama
sudo groupdel ollama
以下是 Ollama 使用常见的指令:
ollama serve # 启动 ollama
ollama create # 从模型文件创建模型
ollama show # 显示模型信息
ollama run # 运行模型
ollama pull # 从注册表中拉取模型
ollama push # 将模型推送到注册表
ollama list # 列出模型
ollama cp # 复制模型
ollama rm # 删除模型
ollama help # 获取有关任何命令的帮助信息
拉取并运行一个模型(例如 llama3):
ollama run llama3
这将自动下载模型并在终端进入对话模式。你可以直接输入问题,模型会进行回答。
在运行模型时,可以通过 -p 参数传递系统提示词:
ollama run llama3 -p "你是一个专业的编程助手,请用 Python 解释这段代码..."
列出已下载的模型及其大小:
ollama list
默认情况下,ollama 模型的存储目录如下:
~/.ollama/models/usr/share/ollama/.ollama/modelsC:\Users\<username>\.ollama\models在 Windows 系统中,若要更改 Ollama 模型的存放位置,可以按照以下步骤操作:
OLLAMA_MODELSD:\Ollama\Models在 Linux 或 Mac 系统中,更改 Ollama 模型存放位置的步骤如下:
mkdir -p /path/to/your/new/ollama/models
~/.bashrc 或 ~/.bash_profile 文件。在 Mac 系统中,可以通过编辑 ~/.zshrc 文件。nano ~/.bashrc
OLLAMA_MODELS 环境变量:export OLLAMA_MODELS="/path/to/your/new/ollama/models"
source ~/.bashrc
Ollama 从最新版 0.3.13 开始支持从 Huggingface Hub 上直接拉取各种模型,包括社区创建的 GGUF 量化模型。用户可以通过简单的命令行指令快速运行这些模型。
可以使用如下命令:
ollama run hf.co/{username}/{repository}
请注意,您可以使用 hf.co 或 huggingface.co 作为域名。
要选择不同的量化方案,只需在命令中添加一个标签:
ollama run hf.co/{username}/{repository}:{quantization}
例如:
ollama run hf.co/bartowski/Llama-3.2-3B-Instruct-GGUF:IQ3_M
ollama run hf.co/bartowski/Llama-3.2-3B-Instruct-GGUF:Q8_0
量化名称不区分大小写,因此以下命令同样有效:
ollama run hf.co/bartowski/Llama-3.2-3B-Instruct-GGUF:iq3_m
您还可以直接使用完整的文件名作为标签:
ollama run hf.co/bartowski/Llama-3.2-3B-Instruct-GGUF:Llama-3.2-3B-Instruct-IQ3_M.gguf
查看作为启动服务运行的 Ollama 的日志:
journalctl -e -u ollama
如果遇到显存不足的问题,可以尝试使用更小参数的模型(如 3B 或 7B 版本),或者调整量化等级(如使用 Q4_K_M)。
部分模型需要从 Hugging Face 下载,如果网络受限,可能需要配置代理或使用国内镜像源(如果可用)。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online