在 Windows 上本地运行开源大语言模型
本文介绍如何在 Windows 机器上通过 Docker、CUDA 驱动、Ollama 和 Open WebUI 免费本地运行大型语言模型(LLM)。
步骤 0:安装 Docker Desktop
如果您尚未安装 Docker,请访问 Docker 官方网站下载并运行安装程序。如需使用 WSL 等特定设置,请参考相关文档。安装完成后继续下一步。
步骤 1:安装 CUDA 以获得 GPU 支持
若需使用 NVIDIA 显卡运行 LLM,必须安装 CUDA 驱动程序以利用计算能力。
- 打开 CUDA 下载页面。
- 选择 "Windows" 及相应选项。
- 将安装程序类型设置为 "本地"。
- 下载并完成安装,随后重启计算机。

步骤 2:安装 Ollama 并下载模型
Ollama 是一款开源 AI 工具,允许用户在本地设备上运行大型语言模型,提供定制化、高效和离线功能。
- 前往 Ollama 官网点击下载按钮。
- 安装后打开 Windows PowerShell。
- 运行以下命令验证安装:
ollama -v

- 访问 Ollama 网站选择模型。建议从 7B 参数版本开始,根据硬件性能调整(例如 i7 处理器 + RTX 2080 SUPER 可尝试 14B 模型)。
- 复制模型名称并在 PowerShell 中运行:
ollama run <model_name>

模型将自动下载并启动 Shell,您可以直接对话。输入 /bye 退出,继续配置图形界面。
步骤 3:安装 Open WebUI
Open WebUI 提供了熟悉的聊天界面,支持 RAG、图像生成、网页浏览等功能。
- 访问 GitHub 仓库页面,找到 "Open WebUI with Nvidia GPU support"。
- 复制提供的 Docker 运行命令。
- 在 PowerShell 中执行该命令,它将拉取镜像并启动容器。
docker run -d --name open-webui -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --restart always ollama/ollama:latest
*注意:请根据实际仓库提供的最新命令替换上述示例命令。
安装完成后,可通过 http://localhost:3000/ 访问界面。左侧边栏用于聊天,顶部可选择已安装的模型。



