Python 调用 Ollama 本地大模型 API 完全指南 | 极客日志

PythonAI算法

Python 调用 Ollama 本地大模型 API 完全指南

综述由AI生成介绍如何在 Python 中通过 HTTP 请求调用 Ollama 本地大模型 API。内容包括安装 Ollama 服务、使用 requests 库进行单轮或多轮对话交互、关键参数配置（如 temperature、max_tokens）以及流式响应处理。同时提供了常见问题排查方案，帮助开发者在本地安全、私有地构建离线 AI 应用。

苹果系统发布于 2026/3/30更新于 2026/5/2427 浏览

Python 调用 Ollama 本地大模型 API 完全指南

Ollama 是一个开源工具，允许开发者在本地轻松运行 Llama、Mistral、Gemma 等主流大语言模型（LLM）。它不仅提供命令行交互，还内置了 HTTP API 服务，使得我们可以通过 Python 等编程语言远程调用本地模型，实现私有化、低延迟、无网络依赖的 AI 应用开发。

本文将介绍如何在 Python 中通过 HTTP 请求调用 Ollama 的 API，完成文本生成、对话交互等任务。

一、前提准备

1. 安装并启动 Ollama

官网下载安装：https://ollama.com/
首次运行会自动下载模型（需联网），之后即可离线使用。

安装后，在终端运行：

ollama run llama3 # 或 mistral、gemma、qwen 等

✅ 重要：Ollama 默认启动一个本地 HTTP 服务（http://localhost:11434），即使你只运行 ollama run，API 也会在后台可用。

二、Ollama API 简介

Ollama 提供了简洁的 RESTful API，核心接口为：

POST /api/generate：用于单轮文本生成（非对话）
POST /api/chat：用于多轮对话（推荐用于聊天场景）

本文以 /api/chat 为主，更贴近实际应用。

三、Python 调用示例（使用 requests）

首先安装依赖（如未安装）：

pip install requests

示例 1：基础对话（单轮）

import requests
import json

def chat_with_ollama(prompt: str, model: str = "llama3") -> str:
    url = "http://localhost:11434/api/chat"
    payload = {
        "model": model,
        "messages": [{"role": "user", "content": prompt}],
        "stream": False  # 关闭流式响应，获取完整结果
    }
    response = requests.post(url, json=payload)
     response.status_code == :
        result = response.json()
         result[][]
    :
         Exception()


answer = chat_with_ollama()
(answer)

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

def multi_turn_chat():
    messages = []
    model = "mistral"  # 可替换为你本地已安装的模型
    while True:
        user_input = input("你：")
        if user_input.lower() in ["退出", "quit", "exit"]:
            break
        messages.append({"role": "user", "content": user_input})
        resp = requests.post(
            "http://localhost:11434/api/chat",
            json={
                "model": model,
                "messages": messages,
                "stream": False
            }
        )
        if resp.ok:
            reply = resp.json()["message"]["content"]
            print(f"AI: {reply}")
            messages.append({"role": "assistant", "content": reply})
        else:
            print("出错了:", resp.text)
            break

multi_turn_chat()

参数	说明
`model`	模型名称，必须是你本地已通过 `ollama pull` 或 `run` 下载的（如 `llama3`, `qwen:7b`, `gemma:2b`）
`messages`	对话历史，格式为 `[{"role": "user/assistant", "content": "..."}]`
`stream`	是否启用流式输出。设为 `True` 时需逐块解析响应（适合 Web 实时展示），`False` 则返回完整结果
`options`	可选，用于设置 temperature、max_tokens 等（见下文）

payload = {
    "model": "llama3",
    "messages": [{"role": "user", "content": "写一首诗"}],
    "stream": False,
    "options": {
        "temperature": 0.7,
        "num_predict": 100,  # 最大生成 token 数
        "top_p": 0.9
    }
}

def stream_chat(prompt: str, model: str = "llama3"):
    url = "http://localhost:11434/api/chat"
    payload = {
        "model": model,
        "messages": [{"role": "user", "content": prompt}],
        "stream": True
    }
    with requests.post(url, json=payload, stream=True) as r:
        for line in r.iter_lines():
            if line:
                chunk = json.loads(line)
                if "message" in chunk:
                    print(chunk["message"]["content"], end="", flush=True)
    print()

Python 调用 Ollama 本地大模型 API 完全指南

一、前提准备

1. 安装并启动 Ollama

二、Ollama API 简介

三、Python 调用示例（使用 requests）

示例 1：基础对话（单轮）

更多推荐文章

相关免费在线工具

示例 2：多轮对话（带上下文）

四、关键参数说明

添加生成参数（如温度、最大长度）：

五、常见问题排查

❌ 问题 1：`Connection refused` 或无法连接

❌ 问题 2：`model not found`

❌ 问题 3：响应慢或卡住

六、进阶：流式响应（Stream）

七、总结

更多推荐文章

相关免费在线工具

Python 调用 Ollama 本地大模型 API 完全指南

一、前提准备

1. 安装并启动 Ollama

二、Ollama API 简介

三、Python 调用示例（使用 requests）

示例 1：基础对话（单轮）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

示例 2：多轮对话（带上下文）

四、关键参数说明

添加生成参数（如温度、最大长度）：

五、常见问题排查

❌ 问题 1：Connection refused 或无法连接

❌ 问题 2：model not found

❌ 问题 3：响应慢或卡住

六、进阶：流式响应（Stream）

七、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

❌ 问题 1：`Connection refused` 或无法连接

❌ 问题 2：`model not found`