Llama.cpp 跨平台部署实战：本地运行大模型完整指南

随着大模型应用普及，数据隐私与部署成本成为核心痛点。Llama.cpp 作为一款轻量级推理框架，支持在 CPU、低功耗 GPU 甚至边缘设备上运行 Llama 2、Mistral 等主流模型，无需复杂环境配置，是本地部署的首选方案。下面从安装到部署，梳理一份全流程实战指南。

一、跨平台安装

Windows 平台

推荐使用 Winget 一键安装。确保系统为 Windows 10 1709 以上版本（Win11 默认内置）。打开 PowerShell 执行：

winget install ggerganov.llama.cpp

验证安装是否成功：

llama-cli --version

若 Winget 不可用，可从 GitHub Release 下载预编译 zip 包，解压后将路径添加至系统环境变量。

Linux 平台

源码编译支持硬件加速定制，推荐方式如下：

git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
make

如需开启 NVIDIA CUDA 加速，执行 make CUDA=1；AMD ROCm 则用 make ROCM=1。依赖安装示例：

sudo apt update && sudo apt install git build-essential cmake

也可选择 GitHub Release 页面下载预编译包，解压后将 bin 目录加入 PATH。

macOS 平台

Homebrew 用户可直接安装：

brew install llama.cpp

Apple Silicon 设备源码编译时默认开启 Metal 加速：

git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
make

二、模型准备：GGUF 格式

Llama.cpp 仅支持 GGUF 格式模型（旧版 GGML 已废弃）。新手建议直接下载转换好的 GGUF 文件，避免自行转换踩坑。

获取途径

Hugging Face：搜索 TheBloke 账号，该账号整理了大量 Llama 3、Qwen、Mistral 等主流模型的 GGUF 版本。
- 量化级别选择：新手优先选 q4_0，平衡速度与效果；内存不足可选 q2_k。
- 注意版权协议，部分模型需申请授权。
国内镜像站：解决访问延迟问题，筛选「GGUF 格式」模型下载。
手动转换：已有 .bin 或 .safetensors 文件可执行脚本转换：
```
python scripts/convert.py path/to/model --outfile model.gguf --outtype q4_0
```
需先安装依赖：pip install torch transformers sentencepiece。

Llama.cpp 跨平台部署实战：本地运行大模型完整指南