Python 调用 Ollama 本地大模型 API 完全指南
Ollama 是一个开源工具,允许开发者在本地轻松运行 Llama、Mistral、Gemma 等主流大语言模型(LLM)。它不仅提供命令行交互,还内置了 HTTP API 服务,使得我们可以通过 Python 等编程语言远程调用本地模型,实现私有化、低延迟、无网络依赖的 AI 应用开发。
本文将介绍如何在 Python 中通过 HTTP 请求调用 Ollama 的 API,完成文本生成、对话交互等任务。
一、前提准备
1. 安装并启动 Ollama
- 官网下载安装:https://ollama.com/
- 首次运行会自动下载模型(需联网),之后即可离线使用。
安装后,在终端运行:
ollama run llama3 # 或 mistral、gemma、qwen 等
✅ 重要:Ollama 默认启动一个本地 HTTP 服务(
http://localhost:11434),即使你只运行ollama run,API 也会在后台可用。
二、Ollama API 简介
Ollama 提供了简洁的 RESTful API,核心接口为:
- POST /api/generate:用于单轮文本生成(非对话)
- POST /api/chat:用于多轮对话(推荐用于聊天场景)
本文以 /api/chat 为主,更贴近实际应用。
三、Python 调用示例(使用 requests)
首先安装依赖(如未安装):
pip install requests
示例 1:基础对话(单轮)
import requests
import json
def chat_with_ollama(prompt: str, model: str = "llama3") -> str:
url = "http://localhost:11434/api/chat"
payload = {
"model": model,
"messages": [{"role": "user", "content": prompt}],
"stream": False # 关闭流式响应,获取完整结果
}
response = requests.post(url, json=payload)
if response.status_code == :
result = response.json()
result[][]
:
Exception()
answer = chat_with_ollama()
(answer)


