Ollama 本地 CPU 部署开源大模型

简介

Ollama 是一个轻量级的工具，允许用户在本地 CPU 上高效运行开源大语言模型。它基于 llama.cpp 实现，支持多种主流模型如 Llama 3、Gemma、Phi 3、Qwen 2 等。相比云端 API，本地部署提供了更高的数据隐私性和更低的长期成本，特别适合开发测试阶段或敏感数据处理场景。

完整支持的模型列表可以参考官方文档：https://ollama.com/library

安装与配置

可以从官网下载 Ollama：https://ollama.com/

macOS: 下载压缩文件，解压后拖入应用程序目录。
Linux: 使用脚本安装或下载二进制文件。
Windows: 下载安装包按向导完成安装。

安装完成后，系统会自动启动后台服务。可以在命令行中直接交互。

常用命令

ollama run qwen2 # 运行 qwen2 模型，如果本地没有，会先自动下载
ollama pull llama3 # 下载 llama3 模型到本地
ollama list # 查看本地有哪些模型可用
ollama rm llama3 # 删除本地的某个模型
ollama ps # 查看当前正在运行的模型进程
ollama show llama3 # 显示模型的详细信息
ollama help # 获取帮助信息

执行 ollama help 可查看详细用法：

Large language model runner

Usage:
  ollama [flags]
  ollama [command]

Available Commands:
  serve       Start ollama
  create      Create a model from a Modelfile
  show        Show information for a model
  run         Run a model
  pull        Pull a model from a registry
  push        Push a model to a registry
  list        List models
  ps          List running models
  cp          Copy a model
  rm          Remove a model
  help        Help about any command

Flags:
  -h, --help      help for any command
  -v, --version   Show version information

命令行交互

在终端中运行 ollama run <model_name> 即可进入对话模式。例如运行 Qwen2：

ollama run qwen2

输入问题后，模型会直接在终端输出回复。这种方式适合快速验证模型能力，但缺乏持久化上下文管理。

Python 接口交互

在命令行运行 ollama run <model_name> 实际上会在后台启动一个模型服务（默认端口 11434）。我们可以使用 Python 代码与该服务进行交互。

有两种主要方式：使用 Ollama 官方库或使用 OpenAI 兼容接口。

Ollama 本地 CPU 部署开源大模型

Ollama 本地 CPU 部署开源大模型

简介

安装与配置

常用命令

命令行交互

Python 接口交互

1. 使用 ollama-python 库

更多推荐文章

相关免费在线工具

2. 使用 OpenAI 接口交互

Jupyter 魔法命令交互

性能与安全考量

CPU 推理效率

数据隐私

资源管理

常见问题排查

总结

更多推荐文章

相关免费在线工具

Ollama 本地 CPU 部署开源大模型

Ollama 本地 CPU 部署开源大模型

简介

安装与配置

常用命令

命令行交互

Python 接口交互

1. 使用 ollama-python 库

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2. 使用 OpenAI 接口交互

Jupyter 魔法命令交互

性能与安全考量

CPU 推理效率

数据隐私

资源管理

常见问题排查

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具