Ollama 本地 CPU 部署开源大模型指南 | 极客日志

PythonAI

Ollama 本地 CPU 部署开源大模型指南

如何在本地 CPU 环境下使用 Ollama 部署开源大模型。内容包括软件安装步骤、命令行基础交互、Python 官方库与 OpenAI 兼容接口的调用方法、Jupyter Notebook 中的魔法命令实现、自定义模型配置文件 Modelfile 的编写以及性能优化建议。通过，开发者可以掌握从部署到集成的完整流程，实现本地化的大模型应用开发，保障数据隐私并降低 API 成本。

JavaCoder发布于 2025/2/7更新于 2026/6/221 浏览

Ollama 本地 CPU 部署开源大模型指南

Ollama 是一个用于在本地运行大型语言模型的强大工具，支持在 CPU 环境下高效部署多种开源大模型，如 Llama3、Gemma、Phi3、Qwen2 等。它基于 llama.cpp 实现，推理效率较高，且兼容 OpenAI API 接口，便于集成到现有开发流程中。

本文将详细介绍 Ollama 的安装、命令行交互、Python 接口调用、Jupyter Notebook 魔法命令扩展以及自定义模型配置，帮助开发者快速搭建本地 AI 环境。

一、安装与配置

1. 下载与安装

访问 Ollama 官网 (https://ollama.com/) 下载对应操作系统的安装包。支持 macOS、Linux 和 Windows 系统。

macOS: 下载 DMG 文件，拖拽至应用程序目录。
Linux: 使用官方脚本 curl https://ollama.com/install.sh | sh。
Windows: 下载 MSI 安装包，按向导完成安装。

安装完成后，无需额外配置即可在终端中使用 ollama 命令。

2. 常用命令

# 运行模型（若本地不存在则自动下载）
ollama run qwen2

# 手动拉取模型
ollama pull llama3

# 查看已下载的模型列表
ollama list

# 删除指定模型
ollama rm qwen2

# 获取帮助信息
ollama help

执行 ollama serve 可启动后台服务，默认监听端口为 11434。

二、命令行交互

直接在终端输入 ollama run <model_name> 即可进入对话模式。Ollama 会加载模型权重并进行流式输出。

示例：

$ ollama run qwen2
>>> 你好，请介绍一下你自己。
>>> 我是 Qwen2，一个由阿里巴巴通义实验室研发的超大规模语言模型...

此模式适合快速测试模型能力或进行简单的问答交互。

三、Python 接口交互

通过 Python 代码可以更方便地集成 Ollama 到应用程序中。Ollama 提供了官方 Python 库，同时也完全兼容 OpenAI SDK。

1. 使用官方 ollama-python 库

首先安装依赖：

pip install ollama

代码示例：

import ollama

response = ollama.chat(
    model='qwen2',
    messages=[{
        'role': 'user',
        'content': '请用幽默的方式解释什么是人工智能。'
    }]
)

print(response['message'][])

相关免费在线工具

RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online

stream = ollama.chat(
    model='qwen2',
    messages=[{'role': 'user', 'content': '写一首关于春天的诗'}],
    stream=True
)

for chunk in stream:
    print(chunk['message']['content'], end='', flush=True)

pip install openai

from openai import OpenAI

client = OpenAI(
    base_url='http://localhost:11434/v1/',
    api_key='ollama'  # 本地部署通常不需要真实 Key
)

completion = client.chat.completions.create(
    model='qwen2',
    messages=[
        {'role': 'user', 'content': '分析这段代码的性能问题...'}
    ],
    stream=True
)

for chunk in completion:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end='')

import sys
from IPython.core.magic import Magics, magics_class, line_magic
from IPython.display import display, clear_output
import ollama

class OllamaMagics(Magics):
    def __init__(self, ipython, model='qwen2'):
        super().__init__(ipython)
        self.model = model
        self.history = []

    @line_magic
    def ollama(self, line):
        query = line.strip()
        if not query:
            return "请输入对话内容"
        
        # 构建消息历史
        messages = [{'role': 'system', 'content': '你是一个有帮助的助手。'}]
        for msg in self.history:
            messages.append(msg)
        messages.append({'role': 'user', 'content': query})
        
        try:
            response = ollama.chat(model=self.model, messages=messages, stream=False)
            answer = response['message']['content']
            self.history.append({'role': 'user', 'content': query})
            self.history.append({'role': 'assistant', 'content': answer})
            return answer
        except Exception as e:
            return f"错误：{str(e)}"

# 注册魔法命令
ip = get_ipython()
ip.register_magics(OllamaMagics)

%ollama 解释一下 Transformer 架构

FROM qwen2
SYSTEM "你是一个专业的 Python 编程助手。"
PARAMETER temperature 0.7
PARAMETER num_ctx 4096

ollama create my-python-assistant -f Modelfile

ollama run my-python-assistant

线程数控制：设置环境变量 OLLAMA_NUM_THREADS 限制使用的 CPU 核心数，避免占用过多资源影响其他应用。
```
export OLLAMA_NUM_THREADS=4
```
显存/内存管理：虽然主要使用 CPU，但部分模型层可能利用 GPU 加速。确保 num_gpu 参数设置正确。
量化版本选择：优先选择量化版本（如 Q4_K_M），在保持精度的同时减少内存占用和计算延迟。
并发请求： Ollama 默认支持并发请求，但在高负载下建议增加 max_running_requests 配置。

Ollama 本地 CPU 部署开源大模型指南

Ollama 本地 CPU 部署开源大模型指南

一、安装与配置

1. 下载与安装

2. 常用命令

二、命令行交互

三、Python 接口交互

1. 使用官方 ollama-python 库

更多推荐文章

相关免费在线工具

2. 使用 OpenAI 兼容接口

四、Jupyter Notebook 魔法命令交互

五、自定义模型配置 (Modelfile)

六、性能优化建议

七、总结

更多推荐文章

相关免费在线工具

Ollama 本地 CPU 部署开源大模型指南

Ollama 本地 CPU 部署开源大模型指南

一、安装与配置

1. 下载与安装

2. 常用命令

二、命令行交互

三、Python 接口交互

1. 使用官方 ollama-python 库

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2. 使用 OpenAI 兼容接口

四、Jupyter Notebook 魔法命令交互

五、自定义模型配置 (Modelfile)

六、性能优化建议

七、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具