跳到主要内容
Windows 本地大模型工具链安装指南:Ollama + llama.cpp + LLaMA Factory | 极客日志
Python AI 算法
Windows 本地大模型工具链安装指南:Ollama + llama.cpp + LLaMA Factory 在 Windows 11 系统上部署本地大模型工具链的完整流程,包括 Ollama 的安装与模型路径配置、基于 CUDA 的 llama.cpp 编译方法、以及 LLaMA Factory 的 Python 虚拟环境搭建与微调功能启用。内容涵盖数据集格式准备、WebUI 启动脚本编写及常见问题排查,旨在帮助用户构建支持 GPU 加速的本地大模型开发与推理环境。
安卓系统 发布于 2026/4/6 更新于 2026/5/20 25 浏览Windows 11 本地大模型工具链安装指南:Ollama + llama.cpp + LLaMA Factory
本教程将指导你在 Windows 11 系统上,将 Ollama 、llama.cpp 和 LLaMA Factory 三个工具统一安装到 E 盘 ,并实现 GPU 加速、数据集配置和一键启动。所有步骤均已实际验证,适用于现代 NVIDIA 显卡。
1. 统一文件夹结构(推荐)
在 E 盘 创建父文件夹 LLM,用于集中管理所有相关文件。子文件夹规划如下:
E:\LLM\
├── Ollama\
├── OllamaModels\
├── llama.cpp\
├── LLaMA-Factory\
├── LLaMAWork\
│ └── datasets\
└── models\
2. 安装 Ollama 并指定存储位置
2.1 下载安装包
访问 Ollama 官网 ,下载 OllamaSetup.exe。
2.2 自定义安装路径
以管理员身份 打开命令提示符,进入安装包所在目录,执行:
OllamaSetup.exe /DIR="E:\LLM\Ollama"
2.3 设置模型存放路径
通过系统环境变量指定模型下载位置:
打开'系统属性' → '高级' → '环境变量'。
在'系统变量'中点击'新建',变量名 OLLAMA_MODELS,变量值 E:\LLM\OllamaModels。
确定保存,并重启电脑 或重启 Ollama 服务。
2.4 验证安装
打开新命令行,输入 ollama -v 查看版本。拉取一个小模型测试:
ollama run deepseek-r1:1.5b
模型应下载到 E:\LLM\OllamaModels 中。
3. 编译 GPU 版 llama.cpp(支持 CUDA)
3.1 安装编译工具
3.2 下载源码 cd /d E:\LLM
git clone https://github.com/ggerganov/llama.cpp.git
3.3 编译(启用 CUDA 支持) cd llama.cpp
mkdir build
cd build
cmake .. -G "Visual Studio 17 2022" -A x64 -DGGML_CUDA=ON
cmake --build . --config Release
编译成功后,可执行文件位于 build\bin\Release\。你可以将这些 .exe 文件复制到 E:\LLM\llama.cpp\ 根目录,方便调用。
3.4 验证 GPU 支持 运行 llama-cli.exe --help,查看是否有 -ngl N(GPU 层数)参数。若有,则支持 GPU。
4. 安装 LLaMA Factory(基于 Python 3.11)
4.1 安装 Miniconda
从 Miniconda 官网 下载 Windows 安装包。
安装时勾选'Add Miniconda3 to my PATH environment variable' 。
安装路径建议使用默认(例如 D:\WorkApp\Python\miniconda3)。
4.2 接受 Anaconda 服务条款(必须执行) conda tos accept --override-channels --channel https://repo.anaconda.com/pkgs/main
conda tos accept --override-channels --channel https://repo.anaconda.com/pkgs/r
conda tos accept --override-channels --channel https://repo.anaconda.com/pkgs/msys2
4.3 创建 Python 3.11 虚拟环境并激活 conda create -n llamafactory python=3.11 -y
conda activate llamafactory
注意 :LLaMA Factory 要求 Python ≥ 3.11,请勿使用 3.10 或更低版本。
4.4 安装 PyTorch(RTX 系列显卡需使用特定版本) pip install torch==2.6.0 torchvision==0.21.0 --index-url https://download.pytorch.org/whl/cu124
如果遇到兼容性警告,可改用 nightly 版本:
pip install --pre torch torchvision --index-url https://download.pytorch.org/whl/nightly/cu124
python -c "import torch; print(torch.cuda.is_available())"
若输出 True,则 PyTorch 可识别 GPU。
4.5 获取 LLaMA Factory 源码 cd /d E:\LLM
git clone https://github.com/hiyouga/LLaMA-Factory.git
4.6 安装 LLaMA Factory(开发模式) cd LLaMA-Factory
pip install -e .[torch,metrics]
python -c "import llamafactory; print('OK')"
5. 配置数据集(WebUI 中显示)
5.1 准备数据集文件 假设你有一个 Alpaca 格式的数据集 my_data.json,内容如下:
[
{ "instruction" : "计算 2+2" , "input" : "" , "output" : "4" } ,
{ "instruction" : "解释机器学习" , "input" : "" , "output" : "机器学习是..." }
]
5.2 创建 dataset_info.json 在 E:\LLM\LLaMAWork\datasets 目录下创建 dataset_info.json,内容如下:
{
"my_dataset" : {
"file_name" : "my_data.json" ,
"formatting" : "alpaca" ,
"columns" : {
"prompt" : "instruction" ,
"query" : "input" ,
"response" : "output"
}
}
}
5.3 在 WebUI 中使用
启动 WebUI(见下一节)。
在'数据路径'输入框中填写 E:\LLM\LLaMAWork\datasets,然后点击刷新按钮 。
下拉列表中应出现 my_dataset,选中即可。
提示 :也可以将数据集直接放入 E:\LLM\LLaMA-Factory\data 目录,并在该目录下的 dataset_info.json 中添加条目,这样路径保持默认。
6. 一键启动脚本(稳定版) 由于虚拟环境中的 llamafactory-cli 可能因入口点问题不可用,推荐使用 绝对路径调用 Python 模块 的方式启动,稳定可靠。
6.1 确定虚拟环境 Python 路径 conda activate llamafactory
where python
记下输出,例如 D:\WorkApp\Python\miniconda3\envs\llamafactory\python.exe。
6.2 创建批处理脚本 在桌面新建文本文件,改名为 启动_LLaMA_Factory.bat,用记事本编辑,内容如下(请替换路径):
@echo off
title LLaMA Factory WebUI
REM 虚拟环境的 Python 解释器绝对路径
set VENV_PYTHON=D:\WorkApp\Python\miniconda3\envs\llamafactory\python.exe
REM LLaMA Factory 源码目录
set SRC=E:\LLM\LLaMA-Factory
cd /d %SRC%
"%VENV_PYTHON%" -m llamafactory.cli webui --server-port 7861
pause
6.3 运行 双击脚本,等待服务器启动,然后浏览器访问 http://localhost:7861 即可使用 WebUI 进行模型微调。
7. 常见问题及解决方法
7.1 conda 命令找不到
确保安装 Miniconda 时勾选了'Add to PATH'。
若未勾选,手动将 D:\WorkApp\Python\miniconda3\Scripts 添加到系统 PATH。
7.2 conda 提示'Terms of Service have not been accepted'
执行第 4.2 节的三条 conda tos accept 命令。
7.3 虚拟环境中运行 llamafactory-cli 找不到命令
可能入口点未注册,改用 python -m llamafactory.cli 方式(已集成到一键脚本中)。
确保虚拟环境中已正确安装 LLaMA Factory(执行 pip install -e .[torch,metrics])。
7.4 安装时提示'requires a different Python: 3.10.20 not in '>=3.11.0''
说明你的虚拟环境 Python 版本过低,请按第 4.3 节重新创建 Python 3.11 环境。
7.5 WebUI 中数据集不显示
检查 dataset_info.json 是否存在于你指定的'数据路径'目录中。
点击刷新按钮。
确保数据集文件格式正确(JSON 或 JSONL),且 file_name 路径正确(可使用绝对路径)。
查看控制台(运行脚本的窗口)是否有错误信息。
7.6 base 环境能运行但虚拟环境不能
说明 LLaMA Factory 误安装在 base 环境。解决方案:
在虚拟环境中重新安装(第 4.6 节)。
使用一键启动脚本,直接指定虚拟环境 Python。
可选:清理 base 环境中的残留(见第 8 节)。
8. 清理 base 环境中的残留(可选) 如果你在 base 环境中也安装过 LLaMA Factory,可以安全卸载:
conda activate base
pip uninstall llamafactory -y
然后手动删除 C:\Users\你的用户名\miniconda3\Scripts\llamafactory-cli.exe 等残留文件(如果有)。注意 :不要随意卸载 base 环境中的其他包,以免影响 conda 自身功能。
9. 验证 GPU 是否正常工作
9.1 查看 llama.cpp 日志 运行 llama-server.exe -m model.gguf -ngl 99 时,控制台输出:
load_tensors: offloading 27 repeating layers to GPU
load_tensors: offloaded 29 /29 layers to GPU
9.2 使用 nvidia-smi 监控 pip install nvitop
nvitop
在推理过程中,观察 GPU-Util 和显存占用是否上升。
10. 总结 通过本教程,你已经在 E 盘建立了一个整洁、高效的本地大模型环境:
Ollama :快速体验流行模型。
llama.cpp :高性能推理 GGUF 模型,GPU 加速。
LLaMA Factory :图形化微调模型,支持自定义数据集。
一键启动脚本让你无需记忆命令,双击即可启动 WebUI。所有工具均可独立更新,互不干扰。
相关免费在线工具 加密/解密文本 使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
RSA密钥对生成器 生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
Mermaid 预览与可视化编辑 基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
随机西班牙地址生成器 随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online
Gemini 图片去水印 基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online
curl 转代码 解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online