Llama.cpp 跨平台部署本地大模型实战指南 | 极客日志

C++AI

Llama.cpp 跨平台部署本地大模型实战指南

介绍轻量级推理框架 Llama.cpp 的跨平台部署方案。涵盖 Windows、Linux、macOS 的安装步骤（含源码编译与预编译包），详解 GGUF 格式模型获取与量化选择。提供文件结构整理规范，演示 Web 可视化界面、命令行交互及 OpenAI 兼容 API 三种使用场景。包含常见问题排查，如路径错误、内存不足及环境变量配置，帮助开发者快速搭建隐私优先的本地大模型服务。

无尘发布于 2026/4/6更新于 2026/7/2577 浏览

引言

随着大模型应用普及，数据隐私与部署成本成为核心痛点。Llama.cpp 作为一款轻量级、跨平台的大模型推理框架，支持在 CPU、低功耗 GPU 甚至边缘设备上运行 Llama 2、Mistral 等主流大模型，无需复杂环境配置，是本地部署大模型的首选方案。本文从新手视角出发，提供从安装到部署的全流程实战指南，降低落地门槛。

一、跨平台安装 Llama.cpp

1. Windows 平台：Winget 一键安装

前提条件：Windows 10 1709 版本以上，已预装 Winget（Windows 11 默认内置，Windows 10 可从微软商店安装 App Installer）。
验证安装：执行 llama-cli --version，若输出版本号则安装成功。
备选方案：若 Winget 无法使用，可从 GitHub Release 下载预编译 zip 包，解压后将路径添加至系统环境变量，再验证版本。

安装命令：打开 PowerShell（无需管理员权限），执行：

winget install ggerganov.llama.cpp

2. Linux 平台：源码编译与预编译包双方案

方案一：源码编译（推荐，支持硬件加速定制）

验证安装：执行 ./llama-cli --version。

克隆仓库并编译：

git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
# 基础 CPU 编译
make
# 开启 NVIDIA CUDA 加速编译
make CUDA=1
# 开启 AMD ROCm 加速编译
make ROCM=1

安装编译依赖：

# Ubuntu/Debian
sudo apt update && sudo apt install git build-essential cmake
# CentOS/RHEL
sudo yum install git gcc-c++ cmake

方案二：预编译包安装

从 GitHub Release 页面下载对应架构的预编译包（如 llama-cpp-linux-x86_64.tar.gz），解压后将 bin 目录添加至系统 PATH，再执行版本验证命令。

3. macOS 平台：Homebrew 与源码编译

方案一：Homebrew 一键安装

验证安装：执行 llama-cli --version。

安装 Llama.cpp：

brew install llama.cpp

安装 Homebrew（若未安装）：

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

相关免费在线工具

RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online

git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
make

xcode-select --install

cd llama.cpp
python scripts/convert.py path/to/llama-2-7b --outfile llama-2-7b.gguf --outtype q4_0

pip install torch transformers sentencepiece

llama-server -m models\llama-3-8b-instruct-q4_0.gguf

cd D:\LlamaCPP_Work

llama-server -m models/llama-3-8b-instruct-q4_0.gguf

cd ~/LlamaCPP_Work

llama-cli -m models\llama-3-8b-instruct-q4_0.gguf -i

cd D:\LlamaCPP_Work

llama-cli -m models/llama-3-8b-instruct-q4_0.gguf -i

cd ~/LlamaCPP_Work

# Windows
llama-server -m models\llama-3-8b-instruct-q4_0.gguf -p 8080 -t 8
# Linux/macOS
llama-server -m models/llama-3-8b-instruct-q4_0.gguf -p 8080 -t 8

curl http://localhost:8080/v1/completions \
-H "Content-Type: application/json" \
-d '{ "prompt": "请解释 RAG 架构的核心原理", "max_tokens": 200, "temperature": 0.7 }'

Llama.cpp 跨平台部署本地大模型实战指南

引言

一、跨平台安装 Llama.cpp

1. Windows 平台：Winget 一键安装

2. Linux 平台：源码编译与预编译包双方案

方案一：源码编译（推荐，支持硬件加速定制）

方案二：预编译包安装

3. macOS 平台：Homebrew 与源码编译

方案一：Homebrew 一键安装

更多推荐文章

相关免费在线工具

方案二：源码编译

二、模型准备：新手友好的 GGUF 模型获取方案

1. Hugging Face（首选，资源最丰富）

2. 国内镜像平台（解决 Hugging Face 访问慢问题）

3. 手动转换（进阶用户可选）

三、新手必做：整理规范的文件结构

四、核心使用场景：新手优先可视化部署

1. Web 可视化界面（新手友好）

Windows 平台

Linux/macOS 平台

2. 命令行交互式推理（进阶用户）

Windows 平台

Linux/macOS 平台

关键参数说明

3. OpenAI 兼容 API 服务（对接第三方工具）

五、新手常见问题与解决方案

1. 终端提示「找不到模型文件」

2. 模型加载很慢 / 提示「内存不足」

3. 终端提示「llama-cli/llama-server 不是内部或外部命令」

4. 推理速度慢

六、总结

更多推荐文章

相关免费在线工具

Llama.cpp 跨平台部署本地大模型实战指南

引言

一、跨平台安装 Llama.cpp

1. Windows 平台：Winget 一键安装

2. Linux 平台：源码编译与预编译包双方案

方案一：源码编译（推荐，支持硬件加速定制）

方案二：预编译包安装

3. macOS 平台：Homebrew 与源码编译

方案一：Homebrew 一键安装

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

方案二：源码编译

二、模型准备：新手友好的 GGUF 模型获取方案

1. Hugging Face（首选，资源最丰富）

2. 国内镜像平台（解决 Hugging Face 访问慢问题）

3. 手动转换（进阶用户可选）

三、新手必做：整理规范的文件结构

四、核心使用场景：新手优先可视化部署

1. Web 可视化界面（新手友好）

Windows 平台

Linux/macOS 平台

2. 命令行交互式推理（进阶用户）

Windows 平台

Linux/macOS 平台

关键参数说明

3. OpenAI 兼容 API 服务（对接第三方工具）

五、新手常见问题与解决方案

1. 终端提示「找不到模型文件」

2. 模型加载很慢 / 提示「内存不足」

3. 终端提示「llama-cli/llama-server 不是内部或外部命令」

4. 推理速度慢

六、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具