Windows 本地部署 Ollama 大模型
为什么要在本地部署 AI 大模型
| 考虑维度 | 实际意义 |
|---|---|
| 数据安全与隐私 | 数据完全在本地闭环处理,无需上传至第三方云端服务器 |
| 响应速度与体验 | 模型推理在本地硬件上直接完成,消除了网络传输延迟 |
| 深度定制与集成 | 拥有模型权重,允许利用私有数据进行微调,并修改底层代码 |
| 成本控制与效益 | 一次性硬件投入后,内部使用边际成本趋近于零,无按 Token 计费的压力 |
| 内容自主与审查 | 摆脱第三方 API 不透明的黑盒敏感词过滤机制 |
Ollama 基础配置
1. 什么是 Ollama
Ollama 是一个'本地运行大模型'的工具,可以在你的电脑或服务器上下载、运行和管理各种开源大语言模型,并提供统一命令行和 HTTP API,像用本地版的 ChatGPT 服务一样方便。
2. 下载安装
建议优先通过官方渠道获取,确保版本最新且安全。
- 官网下载:https://ollama.com/
- GitHub 仓库:https://github.com/ollama/ollama/
双击 OllamaSetup.exe 文件安装,默认安装在 C 盘。安装成功后会自动启动 Ollama 服务。
3. 更新维护
- 自动更新:在任务栏中右键 Ollama 图标,选择
Restart to update。 - 手动更新:重新下载最新版安装包覆盖安装即可。
下载与配置 AI 大模型
本次演示硬件配置如下:
- CPU:Intel® Core™ i5-14600KF
- 内存:32G
- 显卡:NVIDIA GeForce RTX 5060 Ti 16G
1. 更改保存路径
默认模型保存在 C 盘,建议修改到空间更大的磁盘。 点击左上角图标 -> Settings -> 更改大模型的保存位置。
2. 模型选择参考
不同参数的 Qwen3.5 模型对硬件要求差异较大,请根据显存选择:
| 模型名称 (Tag) | 模型文件大小 | 最低显存 (VRAM) | 推荐配置 |
|---|---|---|---|
| qwen3.5:9b | 6.6 GB | 8 GB | RTX 5060 Ti 16G (完美匹配) |
| qwen3.5:27b | 17 GB | 20 GB | 需多卡或高配单卡 |
3. 拉取与运行
在终端运行以下指令,系统会自动下载并启动模型:
ollama run qwen3.5:9b


