Llama.cpp 跨平台部署实战:本地运行大模型完整指南
随着大模型应用普及,数据隐私与部署成本成为核心痛点。Llama.cpp 作为一款轻量级推理框架,支持在 CPU、低功耗 GPU 甚至边缘设备上运行 Llama 2、Mistral 等主流模型,无需复杂环境配置,是本地部署的首选方案。下面从安装到部署,梳理一份全流程实战指南。
一、跨平台安装
Windows 平台
推荐使用 Winget 一键安装。确保系统为 Windows 10 1709 以上版本(Win11 默认内置)。打开 PowerShell 执行:
winget install ggerganov.llama.cpp
验证安装是否成功:
llama-cli --version
若 Winget 不可用,可从 GitHub Release 下载预编译 zip 包,解压后将路径添加至系统环境变量。
Linux 平台
源码编译支持硬件加速定制,推荐方式如下:
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
make
如需开启 NVIDIA CUDA 加速,执行 make CUDA=1;AMD ROCm 则用 make ROCM=1。依赖安装示例:
sudo apt update && sudo apt install git build-essential cmake
也可选择 GitHub Release 页面下载预编译包,解压后将 bin 目录加入 PATH。
macOS 平台
Homebrew 用户可直接安装:
brew install llama.cpp
Apple Silicon 设备源码编译时默认开启 Metal 加速:
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
make
二、模型准备:GGUF 格式
Llama.cpp 仅支持 GGUF 格式模型(旧版 GGML 已废弃)。新手建议直接下载转换好的 GGUF 文件,避免自行转换踩坑。
获取途径
- Hugging Face:搜索
TheBloke账号,该账号整理了大量 Llama 3、Qwen、Mistral 等主流模型的 GGUF 版本。- 量化级别选择:新手优先选
q4_0,平衡速度与效果;内存不足可选q2_k。 - 注意版权协议,部分模型需申请授权。
- 量化级别选择:新手优先选
- 国内镜像站:解决访问延迟问题,筛选「GGUF 格式」模型下载。
- 手动转换:已有
.bin或.safetensors文件可执行脚本转换:
需先安装依赖:python scripts/convert.py path/to/model --outfile model.gguf --outtype q4_0pip install torch transformers sentencepiece。

