Ollama 本地部署教程
一、Ollama 介绍
1.1 基本介绍
Ollama 是一个支持在 Windows、Linux 和 MacOS 上本地运行大语言模型的工具。它允许用户非常方便地运行和使用各种大语言模型,比如 Qwen 模型等。用户只需一行命令就可以启动模型。
主要特点包括:
- 跨平台支持:兼容 Windows、Linux、MacOS 系统。
- 丰富的模型库:包括 Qwen、Llama 等 1700+ 大语言模型,可以在官网 model library 中直接下载使用。
- 自定义模型导入:支持用户上传自己的模型。用户可以将 huggingface 等地的 ggml 格式模型导入到 ollama 中使用。也可以将基于 pytorch 等格式的模型转换为 ggml 格式后导入。
- 参数配置:允许用户通过编写 modelfile 配置文件来自定义模型的推理参数,如 temperature、top_p 等,从而调节模型生成效果。
- 多 GPU 加速:支持多 GPU 并行推理加速。在多卡环境下,可以设置环境变量来指定特定 GPU。
- 社区支持:强大的技术团队支持,很多模型开源不到 24 小时就能获得支持。
总的来说,Ollama 降低了普通开发者使用大语言模型的门槛,使得本地部署体验大模型变得简单易行。对于想要搭建自己的 AI 应用,或者针对特定任务调优模型的开发者来说,是一个非常有用的工具。
二、系统安装
2.1 Windows 安装
直接从下载页面下载相对应系统的安装程序,选择 Download for Windows(Preview)。
下载好以后一路 install 安装即可。安装完成之后,打开一个 cmd 命令窗口,输入 ollama 命令,如果显示 ollama 相关的信息就证明安装已经成功了。
2.2 Mac 安装
直接从下载页面下载相对应系统的安装程序,点击 Download for Mac。
下载好后打开安装命令行,按照提示完成安装。
2.3 Linux 安装
在 Linux 系统上,可以通过脚本安装或源码编译的方式来安装 Ollama。
2.3.1 脚本安装
Ollama 提供了一键安装脚本,可以快速在 Linux 系统上安装 Ollama。安装步骤如下:
打开终端,执行以下命令下载安装脚本:
curl -fsSL https://ollama.com/install.sh | sh
等待安装完成。安装脚本会自动下载所需的组件,并完成 Ollama 的安装与配置。
安装完成后,可以通过以下命令启动 Ollama:
ollama serve
2.3.2 二进制安装
将 Ollama 的二进制文件下载到 PATH 中的目录:
sudo curl -L https://ollama.com/download/ollama-linux-amd64 -o /usr/bin/ollama
sudo chmod +x /usr/bin/ollama
将 Ollama 添加为自启动服务,首先,为 Ollama 创建用户:
sudo useradd -r -s /bin/false -m -d /usr/share/ollama ollama
然后在该位置 /etc/systemd/system/ollama.service 创建服务文件:
[Unit]
Description=Ollama Service
After=network-online.target
[Service]
ExecStart=/usr/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3
[Install]
WantedBy=default.target
设置开机自启动:
sudo systemctl daemon-reload
sudo systemctl enable ollama
启动 Ollama,使用以下命令启动 systemd:
sudo systemctl start ollama
2.3.3 安装特定版本
设置 OLLAMA_VERSION 字段,可以安装对应的版本:
curl -fsSL https://ollama.com/install.sh | OLLAMA_VERSION=0.3.13 sh
2.3.4 更新与卸载
更新:通过 shell 脚本更新 Ollama:
curl -fsSL https://ollama.com/install.sh | sh
或者下载 Ollama 二进制文件覆盖。
卸载:
- 删除 Ollama 服务:
sudo systemctl stop ollama
sudo systemctl disable ollama
sudo rm /etc/systemd/system/ollama.service
- 从 bin 目录中删除 Ollama 二进制文件:
sudo rm $(which ollama)
- 删除下载的模型和 Ollama 服务用户和组:
sudo rm -r /usr/share/ollama
sudo userdel ollama
sudo groupdel ollama
三、常用交互命令
以下是 Ollama 使用常见的指令:
ollama serve # 启动 ollama
ollama create # 从模型文件创建模型
ollama show # 显示模型信息
ollama run # 运行模型
ollama pull # 从注册表中拉取模型
ollama push # 将模型推送到注册表
ollama list # 列出模型
ollama cp # 复制模型
ollama rm # 删除模型
ollama help # 获取有关任何命令的帮助信息
3.1 运行模型
拉取并运行一个模型(例如 llama3):
ollama run llama3
这将自动下载模型并在终端进入对话模式。你可以直接输入问题,模型会进行回答。
3.2 自定义 Prompt
在运行模型时,可以通过 -p 参数传递系统提示词:
ollama run llama3 -p "你是一个专业的编程助手,请用 Python 解释这段代码..."
3.3 查看模型列表
列出已下载的模型及其大小:
ollama list
四、设置自定义模型下载路径
默认情况下,ollama 模型的存储目录如下:
- macOS:
~/.ollama/models - Linux:
/usr/share/ollama/.ollama/models - Windows:
C:\Users\<username>\.ollama\models
4.1 Windows 更改 Ollama 模型存放位置
在 Windows 系统中,若要更改 Ollama 模型的存放位置,可以按照以下步骤操作:
- 打开环境变量编辑界面。右键点击'此电脑'或'我的电脑',选择'属性'。
- 在系统窗口中选择'高级系统设置',在系统属性窗口中点击'环境变量'按钮。
- 在环境变量窗口中,点击'新建'创建一个新的系统变量或用户变量。
- 变量名:
OLLAMA_MODELS - 变量值:输入你希望设置的新模型存放路径,例如:
D:\Ollama\Models
- 变量名:
- 点击'确定'保存设置。
- 重启任何已经打开的 Ollama 相关应用程序,以便新的路径生效。
4.2 Linux/Mac 更改 Ollama 模型存放位置
在 Linux 或 Mac 系统中,更改 Ollama 模型存放位置的步骤如下:
- 打开终端。
- 创建一个新的目录作为模型存放位置:
mkdir -p /path/to/your/new/ollama/models
- 设置环境变量。在 Linux 系统中,可以通过编辑
~/.bashrc或~/.bash_profile文件。在 Mac 系统中,可以通过编辑~/.zshrc文件。
nano ~/.bashrc
- 在文件末尾添加以下行来设置
OLLAMA_MODELS环境变量:
export OLLAMA_MODELS="/path/to/your/new/ollama/models"
- 保存并关闭文件。使环境变量生效:
source ~/.bashrc
- 重启任何已经打开的 Ollama 相关应用程序,以便新的路径生效。
五、导入 Hugging Face 模型
Ollama 从最新版 0.3.13 开始支持从 Huggingface Hub 上直接拉取各种模型,包括社区创建的 GGUF 量化模型。用户可以通过简单的命令行指令快速运行这些模型。
可以使用如下命令:
ollama run hf.co/{username}/{repository}
请注意,您可以使用 hf.co 或 huggingface.co 作为域名。
要选择不同的量化方案,只需在命令中添加一个标签:
ollama run hf.co/{username}/{repository}:{quantization}
例如:
ollama run hf.co/bartowski/Llama-3.2-3B-Instruct-GGUF:IQ3_M
ollama run hf.co/bartowski/Llama-3.2-3B-Instruct-GGUF:Q8_0
量化名称不区分大小写,因此以下命令同样有效:
ollama run hf.co/bartowski/Llama-3.2-3B-Instruct-GGUF:iq3_m
您还可以直接使用完整的文件名作为标签:
ollama run hf.co/bartowski/Llama-3.2-3B-Instruct-GGUF:Llama-3.2-3B-Instruct-IQ3_M.gguf
六、常见问题排查
6.1 查看日志
查看作为启动服务运行的 Ollama 的日志:
journalctl -e -u ollama
6.2 显存不足
如果遇到显存不足的问题,可以尝试使用更小参数的模型(如 3B 或 7B 版本),或者调整量化等级(如使用 Q4_K_M)。
6.3 无法连接网络
部分模型需要从 Hugging Face 下载,如果网络受限,可能需要配置代理或使用国内镜像源(如果可用)。


