Llama.cpp 跨平台部署本地大模型实战指南 | 极客日志

C++AI

Llama.cpp 跨平台部署本地大模型实战指南

Llama.cpp 轻量级推理框架支持 CPU 及边缘设备运行主流大模型。文章涵盖 Windows Winget、Linux 源码编译、macOS Homebrew 安装步骤，详解 GGUF 模型获取与量化选择。提供文件结构规范、Web 可视化界面启动、命令行交互及 OpenAI 兼容 API 对接方法。包含路径错误、内存不足、环境变量配置等常见问题解决方案，助力开发者快速搭建隐私优先的本地大模型服务。

独立开发者发布于 2026/4/5更新于 2026/5/2615 浏览

引言

随着大模型应用普及，数据隐私与部署成本成为核心痛点。Llama.cpp 作为一款轻量级、跨平台的大模型推理框架，支持在 CPU、低功耗 GPU 甚至边缘设备上运行 Llama 2、Mistral 等主流大模型，无需复杂环境配置，是本地部署大模型的首选方案。本文从新手视角出发，提供从安装到部署的全流程实战指南，降低落地门槛。

一、跨平台安装 Llama.cpp

1. Windows 平台：Winget 一键安装

前提条件：Windows 10 1709 版本以上，已预装 Winget（Windows 11 默认内置，Windows 10 可从微软商店安装App Installer）。
验证安装：执行llama-cli --version，若输出版本号则安装成功。
备选方案：若 Winget 无法使用，可从 GitHub Release 下载预编译 zip 包，解压后将路径添加至系统环境变量，再验证版本。

安装命令：打开 PowerShell（无需管理员权限），执行：

winget install ggerganov.llama.cpp

2. Linux 平台：源码编译与预编译包双方案

方案一：源码编译（推荐，支持硬件加速定制）

验证安装：执行./llama-cli --version。

克隆仓库并编译：

git clone https://github.com/ggerganov/llama.cpp.git cd llama.cpp # 基础 CPU 编译 make # 开启 NVIDIA CUDA 加速编译 make CUDA=1 # 开启 AMD ROCm 加速编译 make ROCM=1

安装编译依赖：

# Ubuntu/Debian sudo apt update && sudo apt install git build-essential cmake # CentOS/RHEL sudo yum install git gcc-c++ cmake

方案二：预编译包安装

从 GitHub Release 页面下载对应架构的预编译包（如llama-cpp-linux-x86_64.tar.gz），解压后将bin目录添加至系统PATH，再执行版本验证命令。

3. macOS 平台：Homebrew 与源码编译

方案一：Homebrew 一键安装

验证安装：执行llama-cli --version。

安装 Llama.cpp：

brew install llama.cpp

安装 Homebrew（若未安装）：

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

方案二：源码编译

克隆仓库并编译（Apple Silicon 默认开启 Metal 加速）：

git  https://github.com/ggerganov/llama.cpp.git  llama.cpp make

相关免费在线工具

RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online

xcode-select --install

cd llama.cpp python scripts/convert.py path/to/llama-2-7b --outfile llama-2-7b.gguf --outtype q4_0

pip install torch transformers sentencepiece

llama-server -m models\llama-3-8b-instruct-q4_0.gguf

cd D:\LlamaCPP_Work

llama-server -m models/llama-3-8b-instruct-q4_0.gguf

cd ~/LlamaCPP_Work

llama-cli -m models\llama-3-8b-instruct-q4_0.gguf -i

cd D:\LlamaCPP_Work

llama-cli -m models/llama-3-8b-instruct-q4_0.gguf -i

cd ~/LlamaCPP_Work

# Windows llama-server -m models\llama-3-8b-instruct-q4_0.gguf -p 8080 -t 8 # Linux/macOS llama-server -m models/llama-3-8b-instruct-q4_0.gguf -p 8080 -t 8

curl http://localhost:8080/v1/completions \ -H "Content-Type: application/json" \ -d '{ "prompt": "请解释 RAG 架构的核心原理", "max_tokens": 200, "temperature": 0.7 }'

Llama.cpp 跨平台部署本地大模型实战指南

引言

一、跨平台安装 Llama.cpp

1. Windows 平台：Winget 一键安装

2. Linux 平台：源码编译与预编译包双方案

方案一：源码编译（推荐，支持硬件加速定制）

方案二：预编译包安装

3. macOS 平台：Homebrew 与源码编译

方案一：Homebrew 一键安装

方案二：源码编译

更多推荐文章

相关免费在线工具

二、模型准备：新手友好的 GGUF 模型获取方案

1. Hugging Face（首选，资源最丰富）

2. 国内镜像平台（解决 Hugging Face 访问慢问题）

3. 手动转换（进阶用户可选）

三、新手必做：整理规范的文件结构

四、核心使用场景：新手优先可视化部署

1. Web 可视化界面（新手友好）

Windows 平台

Linux/macOS 平台

2. 命令行交互式推理（进阶用户）

Windows 平台

Linux/macOS 平台

关键参数说明

3. OpenAI 兼容 API 服务（对接第三方工具）

五、新手常见问题与解决方案

1. 终端提示「找不到模型文件」

2. 模型加载很慢 / 提示「内存不足」

3. 终端提示「llama-cli/llama-server 不是内部或外部命令」

4. 推理速度慢

六、总结

更多推荐文章

相关免费在线工具

Llama.cpp 跨平台部署本地大模型实战指南

引言

一、跨平台安装 Llama.cpp

1. Windows 平台：Winget 一键安装

2. Linux 平台：源码编译与预编译包双方案

方案一：源码编译（推荐，支持硬件加速定制）

方案二：预编译包安装

3. macOS 平台：Homebrew 与源码编译

方案一：Homebrew 一键安装

方案二：源码编译

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

二、模型准备：新手友好的 GGUF 模型获取方案

1. Hugging Face（首选，资源最丰富）

2. 国内镜像平台（解决 Hugging Face 访问慢问题）

3. 手动转换（进阶用户可选）

三、新手必做：整理规范的文件结构

四、核心使用场景：新手优先可视化部署

1. Web 可视化界面（新手友好）

Windows 平台

Linux/macOS 平台

2. 命令行交互式推理（进阶用户）

Windows 平台

Linux/macOS 平台

关键参数说明

3. OpenAI 兼容 API 服务（对接第三方工具）

五、新手常见问题与解决方案

1. 终端提示「找不到模型文件」

2. 模型加载很慢 / 提示「内存不足」

3. 终端提示「llama-cli/llama-server 不是内部或外部命令」

4. 推理速度慢

六、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具