Windows 11 本地大模型工具链安装教程:Ollama + llama.cpp + LLaMA Factory
本教程将指导你在 Windows 11 系统上,将 Ollama、llama.cpp 和 LLaMA Factory 三个工具统一安装到 ,并实现 GPU 加速、数据集配置和一键启动。所有步骤均已实际验证,适用于现代 NVIDIA 显卡。
介绍在 Windows 11 环境下安装 Ollama、llama.cpp 和 LLaMA Factory 的完整流程。包括统一文件夹规划、Ollama 安装及模型路径配置、llama.cpp 编译启用 CUDA 加速、基于 Miniconda 创建 Python 虚拟环境并部署 LLaMA Factory、数据集配置方法以及一键启动脚本编写。同时涵盖常见问题排查与 GPU 监控验证,帮助用户构建本地大模型开发与推理环境。
本教程将指导你在 Windows 11 系统上,将 Ollama、llama.cpp 和 LLaMA Factory 三个工具统一安装到 ,并实现 GPU 加速、数据集配置和一键启动。所有步骤均已实际验证,适用于现代 NVIDIA 显卡。
在 E 盘 创建父文件夹 LLM,用于集中管理所有相关文件。子文件夹规划如下:
E:\LLM\
├── Ollama/ # Ollama 程序安装目录
├── OllamaModels/ # Ollama 下载的模型存放目录
├── llama.cpp/ # llama.cpp 源码(git 克隆)
├── LLaMA-Factory/ # LLaMA Factory 源码(git 克隆)
├── LLaMAWork/ # 个人工作区(数据集、配置等)
│ └── datasets/ # 自定义数据集目录
└── models/ # 手动存放的 GGUF 模型文件(可选)
访问 Ollama 官网,下载 OllamaSetup.exe。
以管理员身份打开命令提示符,进入安装包所在目录,执行:
OllamaSetup.exe /DIR="E:\LLM\Ollama"
通过系统环境变量指定模型下载位置:
OLLAMA_MODELS,变量值 E:\LLM\OllamaModels。打开新命令行,输入 ollama -v 查看版本。拉取一个小模型测试:
ollama run deepseek-r1:1.5b
模型应下载到 E:\LLM\OllamaModels 中。
cd /d E:\LLM
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
mkdir build
cd build
cmake .. -G "Visual Studio 17 2022" -A x64 -DGGML_CUDA=ON
cmake --build . --config Release
编译成功后,可执行文件位于 build\bin\Release\。你可以将这些 .exe 文件复制到 E:\LLM\llama.cpp\ 根目录,方便调用。
运行 llama-cli.exe --help,查看是否有 -ngl N(GPU 层数)参数。若有,则支持 GPU。
D:\WorkApp\Python\miniconda3)。在命令提示符中依次执行以下三条命令:
conda tos accept --override-channels --channel https://repo.anaconda.com/pkgs/main
conda tos accept --override-channels --channel https://repo.anaconda.com/pkgs/r
conda tos accept --override-channels --channel https://repo.anaconda.com/pkgs/msys2
conda create -n llamafactory python=3.11 -y
conda activate llamafactory
注意:LLaMA Factory 要求 Python ≥ 3.11,请勿使用 3.10 或更低版本。
pip install torch==2.6.0 torchvision==0.21.0 --index-url https://download.pytorch.org/whl/cu124
如果遇到兼容性警告,可改用 nightly 版本:
pip install --pre torch torchvision --index-url https://download.pytorch.org/whl/nightly/cu124
验证 GPU 可用性:
python -c "import torch; print(torch.cuda.is_available())"
若输出 True,则 PyTorch 可识别 GPU。
cd /d E:\LLM
git clone https://github.com/hiyouga/LLaMA-Factory.git
确保虚拟环境已激活,进入源码目录并安装:
cd LLaMA-Factory
pip install -e .[torch,metrics]
等待安装完成。测试安装:
python -c "import llamafactory; print('OK')"
若输出 OK,则安装正确。
假设你有一个 Alpaca 格式的数据集 my_data.json,内容如下:
[
{"instruction": "计算 2+2", "input": "", "output": "4"},
{"instruction": "解释机器学习", "input": "", "output": "机器学习是..."}
]
dataset_info.json在 E:\LLM\LLaMAWork\datasets 目录下创建 dataset_info.json,内容如下:
{
"my_dataset": {
"file_name": "my_data.json",
"formatting": "alpaca",
"columns": {
"prompt": "instruction",
"query": "input",
"response": "output"
}
}
}
E:\LLM\LLaMAWork\datasets,然后点击刷新按钮。my_dataset,选中即可。提示:也可以将数据集直接放入
E:\LLM\LLaMA-Factory\data目录,并在该目录下的dataset_info.json中添加条目,这样路径保持默认。
由于虚拟环境中的 llamafactory-cli 可能因入口点问题不可用,推荐使用 绝对路径调用 Python 模块 的方式启动,稳定可靠。
激活环境后运行:
conda activate llamafactory
where python
记下输出,例如 D:\WorkApp\Python\miniconda3\envs\llamafactory\python.exe。
在桌面新建文本文件,改名为 启动_LLaMA_Factory.bat,用记事本编辑,内容如下(请替换路径):
@echo off
title LLaMA Factory WebUI
REM 虚拟环境的 Python 解释器绝对路径
set VENV_PYTHON=D:\WorkApp\Python\miniconda3\envs\llamafactory\python.exe
REM LLaMA Factory 源码目录
set SRC=E:\LLM\LLaMA-Factory
cd /d %SRC%
"%VENV_PYTHON%" -m llamafactory.cli webui --server-port 7861
pause
双击脚本,等待服务器启动,然后浏览器访问 http://localhost:7861 即可使用 WebUI 进行模型微调。
D:\WorkApp\Python\miniconda3\Scripts 添加到系统 PATH。conda tos accept 命令。llamafactory-cli 找不到命令python -m llamafactory.cli 方式(已集成到一键脚本中)。pip install -e .[torch,metrics])。dataset_info.json 是否存在于你指定的'数据路径'目录中。file_name 路径正确(可使用绝对路径)。如果你在 base 环境中也安装过 LLaMA Factory,可以安全卸载:
conda activate base
pip uninstall llamafactory -y
然后手动删除 C:\Users\你的用户名\miniconda3\Scripts\llamafactory-cli.exe 等残留文件(如果有)。注意:不要随意卸载 base 环境中的其他包,以免影响 conda 自身功能。
运行 llama-server.exe -m model.gguf -ngl 99 时,控制台输出:
load_tensors: offloading 27 repeating layers to GPU
load_tensors: offloaded 29/29 layers to GPU
表示 GPU 已启用。
打开另一个命令行窗口,运行:
nvidia-smi -l 1
或者使用 nvitop 命令监控
# 安装:pip install nvitop
# 运行:nvitop
在推理过程中,观察 GPU-Util 和显存占用是否上升。
通过本教程,你已经在 E 盘建立了一个整洁、高效的本地大模型环境:
一键启动脚本让你无需记忆命令,双击即可启动 WebUI。所有工具均可独立更新,互不干扰。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online