Windows 本地部署 Ollama 大模型：Qwen3.5 实战与并发优化 | 极客日志

Shell / BashAI

Windows 本地部署 Ollama 大模型：Qwen3.5 实战与并发优化

Windows 环境下利用 Ollama 部署本地大模型，支持 Qwen3.5 等开源模型。教程涵盖软件安装、模型下载路径配置、Cherry Studio 与 AingDesk 客户端对接，以及解决并发请求限制和显存报错问题。提供命令行与图形界面两种交互方式，确保数据隐私与响应速度。

GRACE Grace发布于 2026/4/12更新于 2026/5/2317 浏览

Windows 本地部署 Ollama 大模型

为什么要在本地部署 AI 大模型

考虑维度	实际意义
数据安全与隐私	数据完全在本地闭环处理，无需上传至第三方云端服务器
响应速度与体验	模型推理在本地硬件上直接完成，消除了网络传输延迟
深度定制与集成	拥有模型权重，允许利用私有数据进行微调，并修改底层代码
成本控制与效益	一次性硬件投入后，内部使用边际成本趋近于零，无按 Token 计费的压力
内容自主与审查	摆脱第三方 API 不透明的黑盒敏感词过滤机制

Ollama 基础配置

1. 什么是 Ollama

Ollama 是一个'本地运行大模型'的工具，可以在你的电脑或服务器上下载、运行和管理各种开源大语言模型，并提供统一命令行和 HTTP API，像用本地版的 ChatGPT 服务一样方便。

2. 下载安装

建议优先通过官方渠道获取，确保版本最新且安全。

官网下载：https://ollama.com/
GitHub 仓库：https://github.com/ollama/ollama/

双击 OllamaSetup.exe 文件安装，默认安装在 C 盘。安装成功后会自动启动 Ollama 服务。

3. 更新维护

自动更新：在任务栏中右键 Ollama 图标，选择 Restart to update。
手动更新：重新下载最新版安装包覆盖安装即可。

下载与配置 AI 大模型

本次演示硬件配置如下：

CPU：Intel® Core™ i5-14600KF
内存：32G
显卡：NVIDIA GeForce RTX 5060 Ti 16G

1. 更改保存路径

默认模型保存在 C 盘，建议修改到空间更大的磁盘。点击左上角图标 -> Settings -> 更改大模型的保存位置。

2. 模型选择参考

不同参数的 Qwen3.5 模型对硬件要求差异较大，请根据显存选择：

模型名称 (Tag)	模型文件大小	最低显存 (VRAM)	推荐配置
qwen3.5:9b	6.6 GB	8 GB	RTX 5060 Ti 16G (完美匹配)
qwen3.5:27b	17 GB	20 GB	需多卡或高配单卡

3. 拉取与运行

在终端运行以下指令，系统会自动下载并启动模型：

ollama run qwen3.5:9b

Windows 本地部署 Ollama 大模型：Qwen3.5 实战与并发优化

Windows 本地部署 Ollama 大模型

为什么要在本地部署 AI 大模型

Ollama 基础配置

1. 什么是 Ollama

2. 下载安装

3. 更新维护

下载与配置 AI 大模型

1. 更改保存路径

2. 模型选择参考

3. 拉取与运行

更多推荐文章

相关免费在线工具

4. 上下文长度调整

交互软件配置

1. Cherry Studio

2. AingDesk

解决并发请求限制问题

1. 设置环境变量

2. 验证生效

常见问题排查

1. 吐字速度过慢

2. 内存不足报错

3. 版本不兼容报错

4. 思考模式报错

停止正在运行的模型

更多推荐文章

相关免费在线工具

Windows 本地部署 Ollama 大模型：Qwen3.5 实战与并发优化

Windows 本地部署 Ollama 大模型

为什么要在本地部署 AI 大模型

Ollama 基础配置

1. 什么是 Ollama

2. 下载安装

3. 更新维护

下载与配置 AI 大模型

1. 更改保存路径

2. 模型选择参考

3. 拉取与运行

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

4. 上下文长度调整

交互软件配置

1. Cherry Studio

2. AingDesk

解决并发请求限制问题

1. 设置环境变量

2. 验证生效

常见问题排查

1. 吐字速度过慢

2. 内存不足报错

3. 版本不兼容报错

4. 思考模式报错

停止正在运行的模型

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具