Windows 11 本地部署 Ollama AI 大模型服务完整指南
本文介绍在 Windows 11 系统上本地部署 Ollama AI 大模型服务的完整流程。涵盖下载安装、环境变量配置(存储路径、端口、跨域)、模型拉取与运行、以及通过 Python 调用 API 的示例。同时提供常见问题排查与模型管理命令,帮助用户快速构建本地 AI 应用环境。

本文介绍在 Windows 11 系统上本地部署 Ollama AI 大模型服务的完整流程。涵盖下载安装、环境变量配置(存储路径、端口、跨域)、模型拉取与运行、以及通过 Python 调用 API 的示例。同时提供常见问题排查与模型管理命令,帮助用户快速构建本地 AI 应用环境。

Ollama 是一个开源的大型语言模型服务工具,旨在帮助用户快速在本地运行大模型。通过简单的安装指令,用户可以执行一条命令就在本地运行开源大型语言模型。Ollama 极大地简化了在 Docker 容器内部署和管理 LLM(Large Language Model)的过程,使得用户能够快速地在本地运行大型语言模型,无需依赖云端 API。
访问 Ollama 官方主页下载对应系统的安装程序:https://ollama.com/
支持 macOS, Linux 和 Windows 系统。点击 Download 按钮,获取 OllamaSetup.exe 安装程序。
双击安装文件,点击「Install」开始安装。目前的 Ollama 会默认安装到 C 盘,路径如下:
C:\Users\%username%\AppData\Local\Programs\Ollama
安装过程中不会让用户自定义选择安装路径。
安装完成后,会在电脑右下角出现 Ollama 图标。建议先不要启动服务,直接右键图标选择「Quit Ollama」退出程序。注意:一定要退出 Ollama,否则后续的环境配置无法生效。
Ollama 默认会随 Windows 自动启动。如果不需要,可以在「文件资源管理器」的地址栏中访问以下路径,删除其中的 Ollama.lnk 快捷方式文件,阻止它自动启动:
%APPDATA%\Microsoft\Windows\Start Menu\Programs\Startup
Ollama 的默认模型存储路径为:C:\Users\%username%\.ollama\models。无论 C 盘空间大小,建议将模型存储路径更改到其他盘符(如 D 盘),以避免占用系统盘空间并提升读写速度。
打开「系统环境变量」设置,新建一个系统变量:
OLLAMA_MODELSD:\Work\ollama\models(请确保该文件夹已创建)Ollama API 的默认访问地址和侦听端口是 http://localhost:11434,只能在装有 Ollama 的系统中直接调用。如果需要在局域网内提供服务,请修改 API 的侦听地址和端口。
在系统环境变量里添加或修改:
OLLAMA_HOST:8000(只填写端口号可以同时侦听所有 IPv4 和 IPv6 的 8000 端口)注:要使用 IPv6,需要 Ollama 0.0.20 或更高版本。另外,可能需要在 Windows 防火墙中开放相应端口的远程访问。
Ollama 默认只允许来自 127.0.0.1 和 0.0.0.0 的跨域请求。如果你计划在其它前端面板中调用 Ollama API(如 Open WebUI),建议放开跨域限制。
OLLAMA_ORIGINS*(生产环境建议指定具体域名)将上述更改的环境变量保存后,在「开始」菜单中找到并重新启动 Ollama。或者在终端中运行以下命令以启动 Ollama 服务:
ollama serve
在浏览器中访问 http://localhost:11434,如果看到欢迎页面或服务状态正常,说明服务已启动。
在 Ollama 服务启动后,你可以下载所需的 AI 模型。例如,下载名为 llama3.1 的模型:
ollama pull llama3.1
首次执行会从模型库中下载模型,所需时间取决于你的网速和模型大小。模型库地址:https://ollama.org/library
下载模型后,运行以下命令以启动模型交互:
ollama run llama3.1
等待下载模型完成后,就可以使用了。
ollama listollama rm <模型名称>ollama show <模型名称>确保你已经安装了 Python 和 requests 库,用于与 Ollama API 进行通信。如果没有安装,可以通过以下命令安装:
pip install requests
以下是一个简单的 Python 示例代码,用于与 Ollama 服务端进行交互:
import requests
# 定义 API 的 URL
url = "http://localhost:11434/api/generate"
# 定义请求的数据
data = {
"model": "llama3.1",
"prompt": "告诉 java 的基本原理。"
}
# 发送 POST 请求
response = requests.post(url, json=data)
# 处理响应
if response.status_code == 200:
print(response.json()["text"])
else:
print(f"Error: {response.status_code}")
这个代码示例发送一个 POST 请求给 Ollama 服务端,并输出模型的响应。
实际开发中通常使用流式响应以获得更好的用户体验。以下是流式处理的示例:
import requests
url = "http://localhost:11434/api/generate"
data = {
"model": "llama3.1",
"prompt": "介绍一下人工智能的发展历史。",
"stream": True
}
with requests.post(url, json=data, stream=True) as response:
for line in response.iter_lines():
if line:
import json
chunk = json.loads(line)
if chunk.get("done") is False:
print(chunk["response"], end="", flush=True)
如果启动服务时报错 address already in use,说明 11434 端口已被占用。可以使用 netstat -ano | findstr 11434 查找占用进程并结束,或修改 OLLAMA_HOST 环境变量更换端口。
如果模型下载速度慢或失败,可以尝试检查网络连接,或使用国内镜像源(如果可用)。部分网络环境下可能需要配置代理。
如果在网页调用时遇到 CORS 错误,请确保已设置 OLLAMA_ORIGINS 环境变量为允许的来源,并重启 Ollama 服务。
运行大模型对显存和内存要求较高。如果设备资源不足,建议选择参数量较小的模型(如 phi3, tinyllama 等)。
本文详细介绍了在 Windows 11 上本地部署 Ollama 服务的完整流程。通过配置环境变量优化存储路径和端口,结合 Python API 调用,开发者可以构建基于本地大模型的私有化应用。Ollama 提供了便捷的模型管理和丰富的社区模型资源,是本地运行 AI 大模型的理想选择。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online