Python 调用 Ollama 本地大模型 API 完全指南

Ne0inhk

16 Mar 2026 — 4 min read

Python 调用 Ollama 本地大模型 API 完全指南

Ollama 是一个开源工具，允许开发者在本地轻松运行 Llama、Mistral、Gemma 等主流大语言模型（LLM）。它不仅提供命令行交互，还内置了 HTTP API 服务，使得我们可以通过 Python 等编程语言远程调用本地模型，实现私有化、低延迟、无网络依赖的 AI 应用开发。

本文将手把手教你如何在 Python 中通过 HTTP 请求调用 Ollama 的 API，完成文本生成、对话交互等任务。

一、前提准备

1. 安装并启动 Ollama

官网下载安装：https://ollama.com/
首次运行会自动下载模型（需联网），之后即可离线使用。

安装后，在终端运行：

ollama run llama3 # 或 mistral、gemma、qwen 等

✅ 重要：Ollama 默认启动一个本地 HTTP 服务（http://localhost:11434），即使你只运行 ollama run，API 也会在后台可用。

二、Ollama API 简介

Ollama 提供了简洁的 RESTful API，核心接口为：

POST /api/generate：用于单轮文本生成（非对话）
POST /api/chat：用于多轮对话（推荐用于聊天场景）

本文以 /api/chat 为主，更贴近实际应用。

三、Python 调用示例（使用 requests）

首先安装依赖（如未安装）：

pip install requests

示例 1：基础对话（单轮）

import requests import json def chat_with_ollama(prompt: str, model: str = "llama3") -> str: url = "http://localhost:11434/api/chat" payload = { "model": model, "messages": [{"role": "user", "content": prompt}], "stream": False # 关闭流式响应，获取完整结果 } response = requests.post(url, json=payload) if response.status_code == 200: result = response.json() return result["message"]["content"] else: raise Exception(f"请求失败: {response.text}") # 使用示例 answer = chat_with_ollama("你好！你能介绍一下自己吗？") print(answer)

示例 2：多轮对话（带上下文）

def multi_turn_chat(): messages = [] model = "mistral" # 可替换为你本地已安装的模型 while True: user_input = input("你: ") if user_input.lower() in ["退出", "quit", "exit"]: break messages.append({"role": "user", "content": user_input}) resp = requests.post( "http://localhost:11434/api/chat", json={ "model": model, "messages": messages, "stream": False } ) if resp.ok: reply = resp.json()["message"]["content"] print(f"AI: {reply}") messages.append({"role": "assistant", "content": reply}) else: print("出错了:", resp.text) break # 启动对话 multi_turn_chat()

四、关键参数说明

参数	说明
`model`	模型名称，必须是你本地已通过 `ollama pull` 或 `run` 下载的（如 `llama3`, `qwen:7b`, `gemma:2b`）
`messages`	对话历史，格式为 `[{"role": "user/assistant", "content": "..."}]`
`stream`	是否启用流式输出。设为 `True` 时需逐块解析响应（适合 Web 实时展示），`False` 则返回完整结果
`options`	可选，用于设置 temperature、max_tokens 等（见下文）

添加生成参数（如温度、最大长度）：

payload = { "model": "llama3", "messages": [{"role": "user", "content": "写一首诗"}], "stream": False, "options": { "temperature": 0.7, "num_predict": 100, # 最大生成 token 数 "top_p": 0.9 } }

五、常见问题排查

❌ 问题 1：`Connection refused` 或无法连接

原因：Ollama 服务未运行
解决：确保终端中已运行 ollama serve 或至少执行过一次 ollama run xxx

❌ 问题 2：`model not found`

原因：指定的模型未下载
解决：先在终端执行 ollama pull llama3（替换为你想用的模型）

❌ 问题 3：响应慢或卡住

尝试关闭 stream（设为 False）
检查模型是否过大（如 70B 模型需高性能 GPU）

六、进阶：流式响应（Stream）

若需实时输出（如打字机效果），可启用流式模式：

def stream_chat(prompt: str, model: str = "llama3"): url = "http://localhost:11434/api/chat" payload = { "model": model, "messages": [{"role": "user", "body": prompt}], "stream": True } with requests.post(url, json=payload, stream=True) as r: for line in r.iter_lines(): if line: chunk = json.loads(line) if "message" in chunk: print(chunk["message"]["content"],, flush=True) print() # 换行

⚠️ 注意：流式响应返回的是 JSON Lines（每行一个 JSON 对象），需逐行解析。

七、总结

通过 Ollama 的 HTTP API，Python 开发者可以：

在本地安全、私有地调用大模型；
构建离线 AI 应用（如智能客服、文档摘要、代码助手）；
无缝集成到 Flask/FastAPI/Web 应用中。

核心优势：
✅ 无需联网
✅ 支持多种开源模型
✅ API 简洁易用
✅ 完全免费 & 开源

📌 提示：Ollama 还支持自定义 Modelfile 微调提示词，进一步提升模型表现。

现在，你已经掌握了在 Python 中调用 Ollama 的全部基础知识。快去试试用本地 LLM 构建你的第一个 AI 应用吧！

WebAgent详解+实战：用开源AI智能体搞定产品与竞品市场调研

在市场调研场景中，产品及竞品分析往往需要投入大量人力，手动浏览网页、提取信息、整理数据，不仅效率低下，还容易出现信息遗漏、误差等问题。WebAgent作为通义实验室开源的端到端自主网页智能体，凭借强大的中文语义理解、多步骤推理和结构化输出能力，可完全本地部署且永久免费，能高效替代人工完成网页信息采集、竞品数据提取、产品信息汇总等调研工作。本文将从WebAgent核心介绍、部署要点入手，聚焦产品与竞争对手调研场景，一步步实现实战示例，让无论是开发者还是市场从业者，都能快速上手，用AI提升调研效率，摆脱重复劳动。一、初识WebAgent：阿里开源的网页智能体“神器” 1.1 什么是WebAgent？ WebAgent是阿里巴巴通义实验室开源的自主网页智能体框架，核心定位是“模拟人类浏览网页的完整流程”，能理解自然语言指令、规划浏览路径、执行网页操作（点击、翻页、搜索等）、提取关键信息并结构化输出，无需人工干预即可完成复杂的网页相关任务。与国外的AgentQL相比，WebAgent最大的优势的是完全开源免费、支持本地部署、中文语义优化，无需调用云端API，数据可完全保存在内网，

前端转型AI的“第一公里”：如何建立正确的AI心智模型？

前端转型AI的“第一公里”：如何建立正确的AI心智模型？在过去的一年里，我见证了太多前端同行的焦虑与迷茫。AI浪潮袭来，很多人匆忙上阵，学会了调用OpenAI的API，甚至跑通了LangChain的Demo，但在实际落地时却频频踩坑。我们习惯了确定性的世界：输入1 + 1，输出必然是2；写了display: flex，布局必然改变。然而，AI开发是一个概率性的世界：同样的Prompt，两次调用可能得到截然不同的结果。这种底层逻辑的冲突，是前端转型AI最大的“拦路虎”。很多前端工程师把大模型仅仅当成一个“智能API接口”，试图用传统的硬编码逻辑去控制它，结果往往是Prompt越写越长，系统却越来越不稳定。这并非技术能力不足，而是心智模型尚未完成迁移。从“函数思维”到“上下文思维” 传统前端开发的核心是“函数思维”：我们定义输入、处理逻辑和输出，追求的是精准控制。但在AI应用开发中，这种思维必须升级为“上下文思维”。大模型本质上是一个“概率预测机”。它不像函数那样执行指令，而是像人一样理解语境。前端开发者转型AI的第一步，不是去学Python深度学习框架，而是学会如

Openclaw +本地 Ollama +Qwen webUI chat 没有任何反应

测试openclaw 的前端版本，和openclaw gateway 版本是否一致；通常将 openclaw 升级到最新版本 npm update openclaw npm list openclaw 2fen@ E:\2fen └── [email protected] 确保本地 llm 服务正常运行, 启动vllmOllama服务已成功启动！ - 服务地址： http://127.0.0.1:11434/v1 测试本地llm 运行状态： curl http://127.0.0.1:11434/v1/models $env:OPENCLAW_STATE_DIR="

前端科技新闻（WTN-4）你用了免费的 Trae 编辑器吗？排队多少名？我排在1584名

写在前面，怎么说呢？首先是为了支持国产，用于偷懒写git摘要和部分内容的代码补充还是有些效率提升的，但是plan模式，基本上没怎么完成过。可能是项目不太标准的原因，要是做已经成熟的产品副本或许更简单- 突然有了个点子，找那些收费高卖的贵的，出青春版，或许有搞头。也是首次，发现需要排队了，哈哈哈哈哈哈哈哈哈，让我想起某些游戏，付费插队一、技术快讯｜一次普通的 i18n 任务，却排到 1500 名之后最近在使用 Trae 编辑器（免费版）时，遇到了一件颇具“时代特色”的小插曲。我只是想让 AI 帮忙做一个非常常规的工程任务： * 扫描页面组件 * 提取未国际化的中文文案 * 生成 key-value * 替换为统一的 $t('xxx') 调用 * 保证多语言资源文件结构一致点击执行后，编辑器并没有立刻开始处理，而是弹出了一条提示：