Windows 11 本地大模型工具链指南:Ollama + llama.cpp + LLaMA Factory
本教程将指导你在 Windows 11 系统上,将 Ollama、llama.cpp 和 LLaMA Factory 三个工具统一安装到 E 盘,并实现 GPU 加速、数据集配置和一键启动。所有步骤均已实际验证,适用于现代 NVIDIA 显卡。
📁 1. 统一文件夹结构(推荐)
在 E 盘 创建父文件夹 LLM,用于集中管理所有相关文件。子文件夹规划如下:
E:\LLM\
├── Ollama\ # Ollama 程序安装目录
├── OllamaModels\ # Ollama 下载的模型存放目录
├── llama.cpp\ # llama.cpp 源码(git 克隆)
├── LLaMA-Factory\ # LLaMA Factory 源码(git 克隆)
├── LLaMAWork\ # 个人工作区(数据集、配置等)
│ └── datasets\ # 自定义数据集目录
└── models\ # 手动存放的 GGUF 模型文件(可选)
⚙️ 2. 安装 Ollama 并指定存储位置
2.1 下载安装包
访问 Ollama 官网,下载 OllamaSetup.exe。
2.2 自定义安装路径
以管理员身份打开命令提示符,进入安装包所在目录,执行:
OllamaSetup.exe /DIR="E:\LLM\Ollama"
2.3 设置模型存放路径
通过系统环境变量指定模型下载位置:
- 打开'系统属性' → '高级' → '环境变量'。
- 在'系统变量'中点击'新建',变量名
OLLAMA_MODELS,变量值E:\LLM\OllamaModels。 - 确定保存,并重启电脑或重启 Ollama 服务。
2.4 验证安装
打开新命令行,输入 ollama -v 查看版本。拉取一个小模型测试:
ollama run deepseek-r1:1.5b
模型应下载到 E:\LLM\OllamaModels 中。
🏗️ 3. 编译 GPU 版 llama.cpp(支持 CUDA)
3.1 安装编译工具
- 安装 Visual Studio 2022(社区版),勾选'使用 C++ 的桌面开发'工作负载。
- 安装 CMake,并确保添加到系统 PATH。
3.2 下载源码
cd /d E:\LLM
git clone https://github.com/ggerganov/llama.cpp.git

