Ollama 本地 CPU 部署开源大模型
简介
Ollama 是一个轻量级的工具,允许用户在本地 CPU 上高效运行开源大语言模型。它基于 llama.cpp 实现,支持多种主流模型如 Llama 3、Gemma、Phi 3、Qwen 2 等。相比云端 API,本地部署提供了更高的数据隐私性和更低的长期成本,特别适合开发测试阶段或敏感数据处理场景。
完整支持的模型列表可以参考官方文档:https://ollama.com/library
安装与配置
可以从官网下载 Ollama:https://ollama.com/
- macOS: 下载压缩文件,解压后拖入应用程序目录。
- Linux: 使用脚本安装或下载二进制文件。
- Windows: 下载安装包按向导完成安装。
安装完成后,系统会自动启动后台服务。可以在命令行中直接交互。
常用命令
ollama run qwen2 # 运行 qwen2 模型,如果本地没有,会先自动下载
ollama pull llama3 # 下载 llama3 模型到本地
ollama list # 查看本地有哪些模型可用
ollama rm llama3 # 删除本地的某个模型
ollama ps # 查看当前正在运行的模型进程
ollama show llama3 # 显示模型的详细信息
ollama help # 获取帮助信息
执行 ollama help 可查看详细用法:
Large language model runner
Usage:
ollama [flags]
ollama [command]
Available Commands:
serve Start ollama
create Create a model from a Modelfile
show Show information for a model
run Run a model
pull Pull a model from a registry
push Push a model to a registry
list List models
ps List running models
cp Copy a model
rm Remove a model
help Help about any command
Flags:
-h, --help help for any command
-v, --version Show version information
命令行交互
在终端中运行 ollama run <model_name> 即可进入对话模式。例如运行 Qwen2:
ollama run qwen2
输入问题后,模型会直接在终端输出回复。这种方式适合快速验证模型能力,但缺乏持久化上下文管理。
Python 接口交互
在命令行运行 ollama run <model_name> 实际上会在后台启动一个模型服务(默认端口 11434)。我们可以使用 Python 代码与该服务进行交互。
有两种主要方式:使用 Ollama 官方库或使用 OpenAI 兼容接口。


