Ollama 本地 CPU 部署开源大模型指南
Ollama 是一个用于在本地运行大型语言模型的强大工具,支持在 CPU 环境下高效部署多种开源大模型,如 Llama3、Gemma、Phi3、Qwen2 等。它基于 llama.cpp 实现,推理效率较高,且兼容 OpenAI API 接口,便于集成到现有开发流程中。
本文将详细介绍 Ollama 的安装、命令行交互、Python 接口调用、Jupyter Notebook 魔法命令扩展以及自定义模型配置,帮助开发者快速搭建本地 AI 环境。
一、安装与配置
1. 下载与安装
访问 Ollama 官网 (https://ollama.com/) 下载对应操作系统的安装包。支持 macOS、Linux 和 Windows 系统。
- macOS: 下载 DMG 文件,拖拽至应用程序目录。
- Linux: 使用官方脚本
curl https://ollama.com/install.sh | sh。 - Windows: 下载 MSI 安装包,按向导完成安装。
安装完成后,无需额外配置即可在终端中使用 ollama 命令。
2. 常用命令
# 运行模型(若本地不存在则自动下载)
ollama run qwen2
# 手动拉取模型
ollama pull llama3
# 查看已下载的模型列表
ollama list
# 删除指定模型
ollama rm qwen2
# 获取帮助信息
ollama help
执行 ollama serve 可启动后台服务,默认监听端口为 11434。
二、命令行交互
直接在终端输入 ollama run <model_name> 即可进入对话模式。Ollama 会加载模型权重并进行流式输出。
示例:
$ ollama run qwen2
>>> 你好,请介绍一下你自己。
>>> 我是 Qwen2,一个由阿里巴巴通义实验室研发的超大规模语言模型...
此模式适合快速测试模型能力或进行简单的问答交互。
三、Python 接口交互
通过 Python 代码可以更方便地集成 Ollama 到应用程序中。Ollama 提供了官方 Python 库,同时也完全兼容 OpenAI SDK。
1. 使用官方 ollama-python 库
首先安装依赖:
pip install ollama
代码示例:
import ollama
response = ollama.chat(
model='qwen2',
messages=[{
'role': 'user',
'content': '请用幽默的方式解释什么是人工智能。'
}]
)
print(response['message'][])


