引言
随着大模型应用普及,数据隐私与部署成本成为核心痛点。Llama.cpp 作为一款轻量级、跨平台的大模型推理框架,支持在 CPU、低功耗 GPU 甚至边缘设备上运行 Llama 2、Mistral 等主流大模型,无需复杂环境配置,是本地部署大模型的首选方案。本文从新手视角出发,提供从安装到部署的全流程实战指南,降低落地门槛。
一、跨平台安装 Llama.cpp
1. Windows 平台:Winget 一键安装
- 前提条件:Windows 10 1709 版本以上,已预装 Winget(Windows 11 默认内置,Windows 10 可从微软商店安装
App Installer)。 - 验证安装:执行
llama-cli --version,若输出版本号则安装成功。 - 备选方案:若 Winget 无法使用,可从 GitHub Release 下载预编译 zip 包,解压后将路径添加至系统环境变量,再验证版本。
安装命令:打开 PowerShell(无需管理员权限),执行:
winget install ggerganov.llama.cpp
2. Linux 平台:源码编译与预编译包双方案
方案一:源码编译(推荐,支持硬件加速定制)
- 验证安装:执行
./llama-cli --version。
克隆仓库并编译:
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
# 基础 CPU 编译
make
# 开启 NVIDIA CUDA 加速编译
make CUDA=1
# 开启 AMD ROCm 加速编译
make ROCM=1
安装编译依赖:
# Ubuntu/Debian
sudo apt update && sudo apt install git build-essential cmake
# CentOS/RHEL
sudo yum install git gcc-c++ cmake
方案二:预编译包安装
从 GitHub Release 页面下载对应架构的预编译包(如 llama-cpp-linux-x86_64.tar.gz),解压后将 bin 目录添加至系统 PATH,再执行版本验证命令。
3. macOS 平台:Homebrew 与源码编译
方案一:Homebrew 一键安装
- 验证安装:执行
llama-cli --version。
安装 Llama.cpp:
brew install llama.cpp
安装 Homebrew(若未安装):
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

