Ollama 本地 CPU 部署开源大模型实战指南
Ollama 是一款基于 llama.cpp 实现的高效本地大模型运行工具,支持在 CPU 环境下流畅部署多种开源大语言模型,如 Facebook 的 Llama3、谷歌的 Gemma、微软的 Phi3 以及阿里的 Qwen2 等。相比云端 API,本地部署能更好地保障数据隐私,且无需支付 Token 费用。本文将详细介绍 Ollama 的安装、命令行交互、Python 接口调用以及在 Jupyter Notebook 中的深度集成方法。
一、系统要求与安装准备
在开始之前,请确保您的机器满足以下基本要求:
- 操作系统:支持 macOS (Apple Silicon/Intel), Linux (x86_64/arm64), Windows (WSL2 或原生)。
- 内存:建议至少 8GB RAM,运行较大模型(如 Llama3-8B)推荐 16GB 以上。
- 磁盘空间:每个模型文件通常在 2GB 到 10GB 之间,预留足够空间。
1.1 下载安装
访问官网下载对应系统的安装包。
- macOS:直接拖拽应用至应用程序目录。
- Linux:使用官方提供的脚本一键安装。
- Windows:下载
.msi安装包进行向导式安装。
安装完成后,打开终端即可使用 ollama 命令。
二、命令行交互与管理
Ollama 的核心功能通过命令行实现,操作简洁高效。
2.1 常用命令
# 拉取并运行模型,若本地不存在则自动下载
ollama run qwen2
# 仅下载模型到本地,不立即运行
ollama pull llama3
# 查看已下载的模型列表
ollama list
# 删除指定模型
ollama rm llama3
# 查看帮助信息
ollama help
2.2 服务启动
默认情况下,运行模型时会自动启动后台服务。也可以手动启动服务以便其他程序连接:
ollama serve
服务默认监听 http://localhost:11434。
三、Python 接口交互
Ollama 提供了原生的 Python 库,同时也完全兼容 OpenAI 的 API 格式,这使得许多现有的 AI 应用框架(如 LangChain、PandasAI)可以无缝接入本地模型。
3.1 使用官方 Python 库
首先安装依赖:
pip install ollama
代码示例:
import ollama
response = ollama.chat(
model='qwen2',
stream=False,
messages=[{'role': 'user', 'content': '段子赏析:我已经不是那个当年的穷小子了,我是今年的那个穷小子。'}]
)
(response[][])


