Llama.cpp 跨平台部署本地大模型实战指南 | 极客日志

C++AI算法

Llama.cpp 跨平台部署本地大模型实战指南

Llama.cpp 是一款轻量级跨平台大模型推理框架。在 Windows、Linux、macOS 上的安装方法（含 Winget、源码编译、Homebrew），提供 GGUF 模型获取与量化选择建议，指导文件结构整理及 Web 可视化、命令行交互、OpenAI API 对接等核心场景的使用，解决路径错误、内存不足等常见问题，帮助开发者快速落地隐私优先的本地大模型应用。

板砖工程师发布于 2026/4/6更新于 2026/7/2049 浏览

在这里插入图片描述

摘要

本文全面解析轻量级大模型推理框架 Llama.cpp，详细讲解其在 Windows（Winget）、Linux、macOS 三大平台的安装步骤，针对新手优化了模型获取、文件整理、可视化部署的全流程，涵盖命令行交互、OpenAI 兼容 API 等核心场景，助力开发者快速落地隐私优先的本地大模型应用。

引言

随着大模型应用普及，数据隐私与部署成本成为核心痛点。Llama.cpp 作为一款轻量级、跨平台的大模型推理框架，支持在 CPU、低功耗 GPU 甚至边缘设备上运行 Llama 2、Mistral 等主流大模型，无需复杂环境配置，是本地部署大模型的首选方案。本文从新手视角出发，提供从安装到部署的全流程实战指南，降低落地门槛。

一、跨平台安装 Llama.cpp

1. Windows 平台：Winget 一键安装

前提条件：Windows 10 1709 版本以上，已预装 Winget（Windows 11 默认内置，Windows 10 可从微软商店安装 App Installer）。
验证安装：执行 llama-cli --version，若输出版本号则安装成功。
备选方案：若 Winget 无法使用，可从 GitHub Release 下载预编译 zip 包，解压后将路径添加至系统环境变量，再验证版本。

安装命令：打开 PowerShell（无需管理员权限），执行：

winget install ggerganov.llama.cpp

2. Linux 平台：源码编译与预编译包双方案

方案一：源码编译（推荐，支持硬件加速定制）

验证安装：执行 ./llama-cli --version。

克隆仓库并编译：

git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
# 基础 CPU 编译
make
# 开启 NVIDIA CUDA 加速编译
make CUDA=1
# 开启 AMD ROCm 加速编译
make ROCM=1

安装编译依赖：

# Ubuntu/Debian
sudo apt update && sudo apt install git build-essential cmake
# CentOS/RHEL
sudo yum install git gcc-c++ cmake

方案二：预编译包安装

从 GitHub Release 页面下载对应架构的预编译包（如 llama-cpp-linux-x86_64.tar.gz），解压后将 bin 目录添加至系统 PATH，再执行版本验证命令。

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online

brew install llama.cpp

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
make

xcode-select --install

cd llama.cpp
python scripts/convert.py path/to/llama-2-7b --outfile llama-2-7b.gguf --outtype q4_0

pip install torch transformers sentencepiece

llama-server -m models\llama-3-8b-instruct-q4_0.gguf

cd D:\LlamaCPP_Work

llama-server -m models/llama-3-8b-instruct-q4_0.gguf

cd ~/LlamaCPP_Work

llama-cli -m models\llama-3-8b-instruct-q4_0.gguf -i

cd D:\LlamaCPP_Work

llama-cli -m models/llama-3-8b-instruct-q4_0.gguf -i

cd ~/LlamaCPP_Work

# Windows
llama-server -m models\llama-3-8b-instruct-q4_0.gguf -p 8080 -t 8
# Linux/macOS
llama-server -m models/llama-3-8b-instruct-q4_0.gguf -p 8080 -t 8

curl http://localhost:8080/v1/completions \
-H "Content-Type: application/json" \
-d '{ "prompt": "请解释 RAG 架构的核心原理", "max_tokens": 200, "temperature": 0.7 }'

Llama.cpp 跨平台部署本地大模型实战指南

摘要

引言

一、跨平台安装 Llama.cpp

1. Windows 平台：Winget 一键安装

2. Linux 平台：源码编译与预编译包双方案

方案一：源码编译（推荐，支持硬件加速定制）

方案二：预编译包安装

更多推荐文章

相关免费在线工具

3. macOS 平台：Homebrew 与源码编译

方案一：Homebrew 一键安装

方案二：源码编译

二、模型准备：新手友好的 GGUF 模型获取方案

1. Hugging Face（首选，资源最丰富）

2. 国内镜像平台（解决 Hugging Face 访问慢问题）

3. 手动转换（进阶用户可选）

三、新手必做：整理规范的文件结构

四、核心使用场景：新手优先可视化部署

1. Web 可视化界面（新手友好）

Windows 平台

Linux/macOS 平台

2. 命令行交互式推理（进阶用户）

Windows 平台

Linux/macOS 平台

关键参数说明

3. OpenAI 兼容 API 服务（对接第三方工具）

五、新手常见问题与解决方案

1. 终端提示「找不到模型文件」

2. 模型加载很慢 / 提示「内存不足」

3. 终端提示「llama-cli/llama-server 不是内部或外部命令」

4. 推理速度慢

六、总结

更多推荐文章

相关免费在线工具

Llama.cpp 跨平台部署本地大模型实战指南

摘要

引言

一、跨平台安装 Llama.cpp

1. Windows 平台：Winget 一键安装

2. Linux 平台：源码编译与预编译包双方案

方案一：源码编译（推荐，支持硬件加速定制）

方案二：预编译包安装

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3. macOS 平台：Homebrew 与源码编译

方案一：Homebrew 一键安装

方案二：源码编译

二、模型准备：新手友好的 GGUF 模型获取方案

1. Hugging Face（首选，资源最丰富）

2. 国内镜像平台（解决 Hugging Face 访问慢问题）

3. 手动转换（进阶用户可选）

三、新手必做：整理规范的文件结构

四、核心使用场景：新手优先可视化部署

1. Web 可视化界面（新手友好）

Windows 平台

Linux/macOS 平台

2. 命令行交互式推理（进阶用户）

Windows 平台

Linux/macOS 平台

关键参数说明

3. OpenAI 兼容 API 服务（对接第三方工具）

五、新手常见问题与解决方案

1. 终端提示「找不到模型文件」

2. 模型加载很慢 / 提示「内存不足」

3. 终端提示「llama-cli/llama-server 不是内部或外部命令」

4. 推理速度慢

六、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具