Ollama 本地 CPU 部署开源大模型教程
Ollama 是一个轻量级的工具,允许用户在本地 CPU 上非常方便地部署和运行许多开源的大语言模型。它基于 llama.cpp 实现,在本地 CPU 上的推理效率非常高(当然,如果有 GPU 支持,推理效率会更高)。此外,Ollama 兼容 OpenAI 的接口标准,使得许多现有的基于 OpenAI API 开发的工具可以直接复用。
支持的模型包括 Facebook 的 Llama3、谷歌的 Gemma、微软的 Phi3、阿里的 Qwen2 等。完整支持的模型列表可以参考官方文档:https://ollama.com/library
本文将详细介绍 Ollama 的安装、命令行交互、Python 接口调用以及 Jupyter Notebook 中的魔法命令集成。
一、下载安装 Ollama
可以从官网下载 Ollama:https://ollama.com/
- macOS:下载压缩文件,解压后拖入应用程序目录即可。
- Linux:使用官方提供的安装脚本或二进制文件。
- Windows:下载并运行安装包,按照向导完成安装。
安装完成后,Ollama 服务通常会在后台自动启动。你可以在命令行中直接进行交互。
常用命令
以下是一些常用的 Ollama 命令行指令:
# 运行 qwen2 模型,如果本地没有该模型,会自动先下载
ollama run qwen2
# 手动下载 llama3 模型到本地
ollama pull llama3
# 查看本地有哪些模型可用
ollama list
# 删除本地的某个模型
ollama rm qwen2
# 获取帮助信息
ollama help
执行 ollama help 可以查看详细的使用说明:
Large language model runner
Usage:
ollama [flags]
ollama [command]
Available Commands:
serve Start ollama
create Create a model from a Modelfile
show Show information for a model
run Run a model
pull Pull a model from a registry
push Push a model to a registry
list List models
ps List running models
cp Copy a model
rm Remove a model
help Help about any command
Flags:
-h, --help help for any command
-v, --version Show version information
二、命令行交互
可以在命令行中使用 ollama run <model_name> 运行一个模型,然后在终端中和它进行对话。
例如,运行 Qwen2 模型:
ollama run qwen2
系统会提示输入问题,模型会实时返回回答。这种方式适合快速测试模型的响应能力和上下文理解能力。
三、Python 接口交互
在命令行运行 ollama run qwen2 时,实际上会在后台启动一个模型服务进程。我们可以利用这一点,通过 Python 代码与模型进行交互。
主要有两种方式:使用 Ollama 官方提供的 Python 库,或者使用通用的 OpenAI 兼容接口库。


