Python 调用 Ollama 本地大模型 API 完全指南

Ne0inhk

23 Mar 2026 — 4 min read

Python 调用 Ollama 本地大模型 API 完全指南

Ollama 是一个开源工具，允许开发者在本地轻松运行 Llama、Mistral、Gemma 等主流大语言模型（LLM）。它不仅提供命令行交互，还内置了 HTTP API 服务，使得我们可以通过 Python 等编程语言远程调用本地模型，实现私有化、低延迟、无网络依赖的 AI 应用开发。

本文将手把手教你如何在 Python 中通过 HTTP 请求调用 Ollama 的 API，完成文本生成、对话交互等任务。

一、前提准备

1. 安装并启动 Ollama

官网下载安装：https://ollama.com/
首次运行会自动下载模型（需联网），之后即可离线使用。

安装后，在终端运行：

ollama run llama3 # 或 mistral、gemma、qwen 等

✅ 重要：Ollama 默认启动一个本地 HTTP 服务（http://localhost:11434），即使你只运行 ollama run，API 也会在后台可用。

二、Ollama API 简介

Ollama 提供了简洁的 RESTful API，核心接口为：

POST /api/generate：用于单轮文本生成（非对话）
POST /api/chat：用于多轮对话（推荐用于聊天场景）

本文以 /api/chat 为主，更贴近实际应用。

三、Python 调用示例（使用 requests）

首先安装依赖（如未安装）：

pip install requests

示例 1：基础对话（单轮）

import requests import json def chat_with_ollama(prompt: str, model: str = "llama3") -> str: url = "http://localhost:11434/api/chat" payload = { "model": model, "messages": [{"role": "user", "content": prompt}], "stream": False # 关闭流式响应，获取完整结果 } response = requests.post(url, json=payload) if response.status_code == 200: result = response.json() return result["message"]["content"] else: raise Exception(f"请求失败: {response.text}") # 使用示例 answer = chat_with_ollama("你好！你能介绍一下自己吗？") print(answer)

示例 2：多轮对话（带上下文）

def multi_turn_chat(): messages = [] model = "mistral" # 可替换为你本地已安装的模型 while True: user_input = input("你: ") if user_input.lower() in ["退出", "quit", "exit"]: break messages.append({"role": "user", "content": user_input}) resp = requests.post( "http://localhost:11434/api/chat", json={ "model": model, "messages": messages, "stream": False } ) if resp.ok: reply = resp.json()["message"]["content"] print(f"AI: {reply}") messages.append({"role": "assistant", "content": reply}) else: print("出错了:", resp.text) break # 启动对话 multi_turn_chat()

四、关键参数说明

参数	说明
`model`	模型名称，必须是你本地已通过 `ollama pull` 或 `run` 下载的（如 `llama3`, `qwen:7b`, `gemma:2b`）
`messages`	对话历史，格式为 `[{"role": "user/assistant", "content": "..."}]`
`stream`	是否启用流式输出。设为 `True` 时需逐块解析响应（适合 Web 实时展示），`False` 则返回完整结果
`options`	可选，用于设置 temperature、max_tokens 等（见下文）

添加生成参数（如温度、最大长度）：

payload = { "model": "llama3", "messages": [{"role": "user", "content": "写一首诗"}], "stream": False, "options": { "temperature": 0.7, "num_predict": 100, # 最大生成 token 数 "top_p": 0.9 } }

五、常见问题排查

❌ 问题 1：`Connection refused` 或无法连接

原因：Ollama 服务未运行
解决：确保终端中已运行 ollama serve 或至少执行过一次 ollama run xxx

❌ 问题 2：`model not found`

原因：指定的模型未下载
解决：先在终端执行 ollama pull llama3（替换为你想用的模型）

❌ 问题 3：响应慢或卡住

尝试关闭 stream（设为 False）
检查模型是否过大（如 70B 模型需高性能 GPU）

六、进阶：流式响应（Stream）

若需实时输出（如打字机效果），可启用流式模式：

def stream_chat(prompt: str, model: str = "llama3"): url = "http://localhost:11434/api/chat" payload = { "model": model, "messages": [{"role": "user", "body": prompt}], "stream": True } with requests.post(url, json=payload, stream=True) as r: for line in r.iter_lines(): if line: chunk = json.loads(line) if "message" in chunk: print(chunk["message"]["content"],, flush=True) print() # 换行

⚠️ 注意：流式响应返回的是 JSON Lines（每行一个 JSON 对象），需逐行解析。

七、总结

通过 Ollama 的 HTTP API，Python 开发者可以：

在本地安全、私有地调用大模型；
构建离线 AI 应用（如智能客服、文档摘要、代码助手）；
无缝集成到 Flask/FastAPI/Web 应用中。

核心优势：
✅ 无需联网
✅ 支持多种开源模型
✅ API 简洁易用
✅ 完全免费 & 开源

📌 提示：Ollama 还支持自定义 Modelfile 微调提示词，进一步提升模型表现。

现在，你已经掌握了在 Python 中调用 Ollama 的全部基础知识。快去试试用本地 LLM 构建你的第一个 AI 应用吧！

【VS Code避坑指南】点击Python图标提示“没有Python环境”，选择安装uv后这堆输出到底是什么意思？

大家好，我是刚接触Python的小白。今天兴致勃勃地打开VS Code，准备开启我的编程之旅。按照网上的教程，我安装了一个名为“Python”的扩展（就是那个微软官方出品的、有蟒蛇图标的）。安装完扩展，激动人心的一刻到了——我点击了左侧活动栏那个醒目的蟒蛇图标，满心期待它会告诉我“环境已就绪，可以写代码了”。结果，它给我弹了个窗： “We noticed you don‘t have a Python environment installed. Would you like to install uv to manage Python versions?” 翻译过来大概是：我们注意到你没装Python环境，要不要装个叫uv的工具来管理Python版本？我一个纯小白，哪懂什么uv不uv的？既然VS Code大佬都这么问了，那肯定选“确定”啊！点击确定后，

Python 代码打包为 EXE 完全指南（图文详解 + 问题排查）

Python 代码打包为 EXE 完全指南（图文详解 + 问题排查）在 Python 开发完成后，为了方便非技术用户使用（无需安装 Python 环境），将代码打包为 EXE 可执行文件是常用需求。本文以 GUI 程序为例，详细介绍使用 PyInstaller 工具打包的完整流程、优化配置及常见问题解决方案，适合各类 Python 项目打包场景。一、打包前准备 1. 环境要求 * 操作系统：Windows（本文重点）/macOS/ Linux * Python 版本：3.8+（建议，避免兼容性问题） * 核心工具：PyInstaller（最稳定的 Python 打包工具） 2. 依赖安装（1）安装打包工具

蓝桥杯2025年第十六届省赛真题-抽奖（Python详解）

蓝桥杯2025年第十六届省赛真题-抽奖（Python详解） * 题目解析 * 问题描述 * 算法思路 * 关键要点 * Python实现代码 * 代码详解 * 1. 输入处理 * 2. 位置更新 * 3. 积分判断逻辑 * 4. 数据结构选择 * 优化版本（更清晰的逻辑） * 测试样例 * 样例输入 * 模拟过程 * 样例输出 * 边界情况处理 * 复杂度分析 * 总结 🌺The Begin🌺点点关注，收藏不迷路🌺 题目解析问题描述 LQ商场抽奖机有三个转轮，每个转轮上有n个数字图案（标号1~n），初始都在位置1。每次抽奖时，三个转轮分别转动x₁, x₂, x₃次，然后根据停止时显示的数字计算积分。积分规则如下： 1. 三个相同图案：积分 +200 2. 两个相同图案：积分

Python操作国产金仓数据库（KingbaseES）全流程：从环境搭建到实战应用

Python操作国产金仓数据库（KingbaseES）全流程：从环境搭建到实战应用 Python操作国产金仓数据库（KingbaseES）全流程：从环境搭建到实战应用，大家好，我是 xcLeigh。现在国产化数据库越来越普及，金仓数据库（KingbaseES）作为一款超实用的企业级关系型数据库，在政府、金融、能源这些关键领域用得特别多。今天我就带大家从零开始，一步步学会用Python操作金仓数据库，从环境准备、连接数据库，到CRUD核心操作、事务处理，再到常见问题排查，内容全是干货，代码拿过去就能用，就算是新手也能很快上手！前言中电科金仓（北京）科技股份有限公司（以下简称“电科金仓”）成立于1999年，是成立最早的拥有自主知识产权的国产数据库企业，也是中国电子科技集团（CETC）成员企业。电科金仓以“提供卓越的数据库产品助力企业级应用高质量发展”为使命，致力于“成为世界卓越的数据库产品与服务提供商”。电科金仓自成立起始终坚持自主创新，专注数据库领域二十余载，具备出色的数据库产品研发及服务能力，核心产品金仓数据库管理系统KingbaseES（简称“KES”