llama.cpp 多环境部署指南：从CPU到CUDA/Metal的高效推理实践

优质文章学习记录

08 Apr 2026 — 4 min read

1. 环境准备：从零开始的硬件与软件栈

如果你和我一样，对在本地运行大模型充满好奇，但又不想被复杂的框架和庞大的资源消耗吓退，那 llama.cpp 绝对是你该试试的第一个项目。简单来说，它是一个用 C/C++ 编写的轻量级推理引擎，能把 Hugging Face 上那些动辄几十GB的模型，“瘦身”成几GB的 GGUF 格式文件，然后在你的电脑上——无论是 Mac 的 Apple Silicon 芯片，还是 Windows/Linux 的 CPU 或 NVIDIA GPU——流畅地跑起来。我最初接触它，就是想在不升级显卡的老电脑上体验一下 7B 参数模型的对话能力，结果发现它不仅能在 CPU 上跑，还能充分利用 GPU 加速，效果远超预期。

这篇文章，我就以一个“过来人”的身份，带你走一遍从环境准备到模型量化、再到跨平台高效推理的完整流程。我会重点分享在不同硬件（CPU、Apple Metal、NVIDIA CUDA）下的部署差异，以及如何针对单卡和多卡进行性能调优。你不需要是 C++ 专家，甚至对深度学习框架不熟也没关系，跟着步骤操作，遇到问题我们一起解决。整个过程就像搭积木，一步步来，最终你就能拥有一个属于自己的、快速响应且完全离线的大模型助手。

在开始动手之前，我们先理清需要准备的东西。硬件上，无非就是三种情况：纯 CPU、苹果电脑的 Metal（Apple Silicon M系列芯片），或者带有 NVIDIA 显卡的电脑。软件栈则主要围绕 llama.cpp 的编译环境。对于大多数 Linux 和 macOS 用户，系统自带的终端和包管理器（如 apt、brew）就足够了。Windows 用户我强烈推荐使用 WSL2（Windows Subsystem for Linux），它能提供一个近乎原生的 Linux 环境，避免很多兼容性麻烦。我自己在 Windows 11 的 WSL2（Ubuntu 22.04）和 macOS Sonoma（M2 Max）上都反复测试过，流程是通的。

注意：无论你选择哪种硬件路径，第一步都是确保你的系统有基础的编译工具链。打开终端，输入 gcc --version 或 clang --version 看看，如果没有，就用 sudo apt install build-essential（Ubuntu）或 xcode-select --install（macOS）来安装。

2. 编译 llama.cpp：针对不同硬件的“定制化”构建

拿到 llama.cpp 的源代码后，我们不能直接使用，需要根据你的硬件环境进行编译，生成最适合你机器的可执行文件。这个过程就像是把一份通用的食谱，根据你厨房里有的灶具（CPU、GPU）调整成最高效的烹饪方案。

2.1 获取源代码与基础准备

首先，我们把“食谱”拿到手。打开终端，找一个你喜欢的目录，执行克隆命令：

git clone https://github.com/ggerganov/llama.cpp cd llama.cpp

这个仓库里包含了所有的源代码和工具。接下来，我们需要一个“厨师”——也就是编译工具 make。通常 Linux 系统已经自带，如果没有，用 sudo apt install make 安装。macOS 用户如果安装了 Xcode Command Line Tools，也会包含 make。为了确保万无一失，我们还需要安装 cmake 和 pkg-config，它们是处理更复杂编译依赖的利器。一条命令搞定：

# Ubuntu/Debian sudo apt update && sudo apt install build-essential cmake pkg-config # macOS (使用 Homebrew) brew install cmake pkg-config

准备工作就绪，现在进入关键环节：针对不同硬件编译。

2.2 CPU 版本编译：最通用的起点

CPU 版本是兼容性最广的，它不依赖任何特殊的图形 API，完全依靠你的中央处理器进行计算。编译命令也最简单：

make

这个命令会调用 Makefile，自动检测你的系统环境，编译出纯 CPU 版本的可执行文件，比如 main、llama-cli、llama-server 等。编译完成后，你可以运行 ./llama-cli -h 看看帮助信息，确认编译成功。对于只是想体验或者硬件没有 GPU 的用户来说，这一步就够了。但 CPU 推理速度相对较慢，尤其是大模型，所以如果你的机器有 GPU，强烈建议继续看下去。

2.3 Metal (Apple Silicon) 版本编译：榨干苹果芯片的性能

如果你用的是搭载 M1、M2、M3 等 Apple Silicon 芯片的 Mac，那么 Metal Performance Shaders (MPS) 就是你的性能利器。它允许计算任务直接跑在强大的集成 GPU 上。编译时，我们需要显式地启用 Metal 支

LLaMA-Factory安装教程（详细版）

本机显卡双3090 使用wsl中ubuntu torch==2.6.0 conda==24.5.0 cuda==12.4 python==3.12.4（python安装不做赘述，有需要我会另开一篇文章）一、准备工作首先，在 https://developer.nvidia.com/cuda-gpus 查看您的 GPU 是否支持CUDA。保证当前 Linux 版本支持CUDA. 在命令行中输入 uname -m && cat /etc/*release 输出如下，不一定完全一样，类似即可检查是否安装了 gcc . 在命令行中输入 gcc --version

Midjourney官网地址是哪个？有没有中文官网？

作为AI绘画领域的明星工具，Midjourney凭借其强大的图像生成能力风靡全球。许多用户初次接触时，最常问的问题便是：Midjourney的官网地址是什么？是否有中文官网？一、Midjourney官网入口 Midjourney的唯一官方访问地址为： 👉 https://www.midjourney.com 需要注意的是，Midjourney的核心服务基于Discord平台运行。用户需先注册Discord账号，通过官网引导加入Midjourney频道，重要的是中文用户需要魔法才能使用官方MJ绘画功能。官网主要提供功能说明、订阅计划、作品展示等基础信息。二、中文用户如何快速上手？目前Midjourney尚未推出中文官网，且操作界面以英文为主。对于不熟悉Discord或英文界面的用户，可通过以下方式降低使用门槛： 1. 浏览器翻译插件（如谷歌翻译）辅助阅读 2. 参考中文社区教程（知乎、B站等平台有大量指南） 3. 使用第三方API服务——例如 OpenXS Midjourney API，提供全中文文档和本地化技术支

InfiniteYou核心技术深度解析：InfuseNet如何通过残差连接实现身份特征注入

InfiniteYou核心技术深度解析：InfuseNet如何通过残差连接实现身份特征注入【免费下载链接】InfiniteYou🔥 [ICCV 2025 Highlight] InfiniteYou: Flexible Photo Recrafting While Preserving Your Identity 项目地址: https://gitcode.com/gh_mirrors/in/InfiniteYou InfiniteYou作为ICCV 2025 Highlight项目，凭借其创新的InfuseNet技术，实现了在灵活照片重制过程中精准保留人物身份特征的突破。本文将深入解析InfuseNet的核心机制，特别是残差连接在身份特征注入中的关键作用，带您了解这一技术如何在保持生成灵活性的同时，确保人物身份的一致性。身份特征注入的挑战与解决方案在AI图像生成领域，如何在改变人物姿态、场景或风格的同时保持核心身份特征，一直是一个关键挑战。传统方法往往面临身份丢失或过度同质化的问题，而InfuseNet通过独特的残差连接设计，成功解决了这一难题。图1：Infus

昇腾NPU运行Llama模型全攻略：环境搭建、性能测试、问题解决一网打尽

背景最近几年，AI 大模型火得一塌糊涂，特别是像 Llama 这样的开源模型，几乎成了每个技术团队都在讨论的热点。不过，这些"巨无霸"模型虽然能力超强，但对硬件的要求也高得吓人。这时候，华为的昇腾 NPU 就派上用场了。说实话，昇腾 NPU 在 AI 计算这块确实有两把刷子。它专门为神经网络计算设计，不仅算力强劲，功耗控制得也不错，最关键的是灵活性很好，可以根据不同场景进行裁剪。所以，用它来跑大模型推理，理论上应该是个不错的选择。为什么偏偏选了 Llama 来测试？说到 Llama，这玩意儿现在可是开源界的"网红"。Meta 把它完全开源出来，社区生态搞得风生水起，各种优化和适配层出不穷。其实选择 Llama 做测试，主要有这么几个考虑：