Ollama 本地 CPU 部署开源大模型教程

Ollama 是一个轻量级的工具，允许用户在本地 CPU 上非常方便地部署和运行许多开源的大语言模型。它基于 llama.cpp 实现，在本地 CPU 上的推理效率非常高（当然，如果有 GPU 支持，推理效率会更高）。此外，Ollama 兼容 OpenAI 的接口标准，使得许多现有的基于 OpenAI API 开发的工具可以直接复用。

支持的模型包括 Facebook 的 Llama3、谷歌的 Gemma、微软的 Phi3、阿里的 Qwen2 等。完整支持的模型列表可以参考官方文档：https://ollama.com/library

本文将详细介绍 Ollama 的安装、命令行交互、Python 接口调用以及 Jupyter Notebook 中的魔法命令集成。

一、下载安装 Ollama

可以从官网下载 Ollama：https://ollama.com/

macOS：下载压缩文件，解压后拖入应用程序目录即可。
Linux：使用官方提供的安装脚本或二进制文件。
Windows：下载并运行安装包，按照向导完成安装。

安装完成后，Ollama 服务通常会在后台自动启动。你可以在命令行中直接进行交互。

常用命令

以下是一些常用的 Ollama 命令行指令：

# 运行 qwen2 模型，如果本地没有该模型，会自动先下载
ollama run qwen2

# 手动下载 llama3 模型到本地
ollama pull llama3

# 查看本地有哪些模型可用
ollama list

# 删除本地的某个模型
ollama rm qwen2

# 获取帮助信息
ollama help

执行 ollama help 可以查看详细的使用说明：

Large language model runner

Usage:
  ollama [flags]
  ollama [command]

Available Commands:
  serve       Start ollama
  create      Create a model from a Modelfile
  show        Show information for a model
  run         Run a model
  pull        Pull a model from a registry
  push        Push a model to a registry
  list        List models
  ps          List running models
  cp          Copy a model
  rm          Remove a model
  help        Help about any command

Flags:
  -h, --help      help for any command
  -v, --version   Show version information

二、命令行交互

可以在命令行中使用 ollama run <model_name> 运行一个模型，然后在终端中和它进行对话。

例如，运行 Qwen2 模型：

ollama run qwen2

系统会提示输入问题，模型会实时返回回答。这种方式适合快速测试模型的响应能力和上下文理解能力。

三、Python 接口交互

在命令行运行 ollama run qwen2 时，实际上会在后台启动一个模型服务进程。我们可以利用这一点，通过 Python 代码与模型进行交互。

主要有两种方式：使用 Ollama 官方提供的 Python 库，或者使用通用的 OpenAI 兼容接口库。

Ollama 本地 CPU 部署开源大模型教程