跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
C++AI算法

llama.cpp 多环境部署指南:从 CPU 到 CUDA/Metal 的推理实践

介绍 llama.cpp 在多环境下的部署流程,涵盖 CPU、Apple Metal 及 NVIDIA CUDA 的编译配置。内容包括环境准备、源码获取、基础依赖安装以及针对 CPU 和 Apple Silicon 的编译命令。旨在帮助用户在不同硬件平台上实现本地大模型的高效推理。

蜜桃汽水发布于 2026/4/6更新于 2026/5/2230 浏览

1. 环境准备:从零开始的硬件与软件栈

llama.cpp 是一个用 C/C++ 编写的轻量级推理引擎,能将 Hugging Face 上的模型转换为 GGUF 格式,在 CPU、Apple Silicon 或 NVIDIA GPU 上运行。

硬件需求分为三种情况:纯 CPU、苹果电脑 Metal(Apple Silicon M 系列芯片),或带有 NVIDIA 显卡的电脑。软件栈主要围绕 llama.cpp 的编译环境。对于大多数 Linux 和 macOS 用户,系统自带的终端和包管理器即可。Windows 用户建议使用 WSL2(Windows Subsystem for Linux)。

注意:确保系统有基础的编译工具链。输入 gcc --version 或 clang --version 检查,若无则安装 build-essential(Ubuntu)或 xcode-select --install(macOS)。

2. 编译 llama.cpp:针对不同硬件的'定制化'构建

根据硬件环境编译生成最适合的可执行文件。

2.1 获取源代码与基础准备
bash
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp

需要编译工具 make。Linux 通常自带,macOS 需安装 Xcode Command Line Tools。还需安装 cmake 和 pkg-config。

bash
# Ubuntu/Debian
sudo apt update && sudo apt install build-essential cmake pkg-config
# macOS (使用 Homebrew)
brew install cmake pkg-config
2.2 CPU 版本编译:最通用的起点

CPU 版本不依赖特殊图形 API,完全依靠中央处理器计算。

make

编译完成后运行 ./llama-cli -h 确认。对于无 GPU 机器或体验用途足够,但速度相对较慢。

2.3 Metal (Apple Silicon) 版本编译:榨干苹果芯片的性能

若使用搭载 M1、M2、M3 等 Apple Silicon 芯片的 Mac,Metal Performance Shaders (MPS) 允许计算任务直接跑在集成 GPU 上。编译时,我们需要显式地启用 Metal 支持。

目录

  1. 1. 环境准备:从零开始的硬件与软件栈
  2. 2. 编译 llama.cpp:针对不同硬件的“定制化”构建
  3. 2.1 获取源代码与基础准备
  4. Ubuntu/Debian
  5. macOS (使用 Homebrew)
  6. 2.2 CPU 版本编译:最通用的起点
  7. 2.3 Metal (Apple Silicon) 版本编译:榨干苹果芯片的性能
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • 文心大模型 4.5 轻量化部署实践与能力验证
  • Web 团队开发移动应用:是否应选用 Capacitor
  • OpenClaw 在 Windows 与 Ubuntu 下的安装配置指南
  • Faster-Whisper 本地实时语音转文本部署指南
  • Capacitor 跨平台打包实战:Web 应用转原生 App
  • Web 团队构建 App:Capacitor 选型指南
  • OpenClaw AI 智能体部署与使用指南
  • 豆包 API 注册与密钥申请流程
  • LangChain 智能体中间件如何参与 Agent、Model 和 Tool 交互
  • 锐龙 AI 7 H 350和锐龙 7 H255对比评测
  • 文心一言 4.5 开源版本地化部署实测与性能分析
  • Hugging Face 复现 o1 策略:Llama 3B 模型通过扩展测试时计算超越 80B 模型
  • 前端 PWA 技术详解:离线缓存与推送通知实现
  • MaxKB4j 基于 Java 的开源 RAG 知识库平台技术解析
  • AWK 多维数组原理与多文件处理示例
  • OpenClaw 集成飞书机器人部署指南
  • Android 注册登录界面实现示例代码
  • 无人机三维路径规划:A*, RRT, APF 算法对比
  • 2019 年信奥赛 C++ 提高组 CSP-S 初赛真题解析(选择题 11-15)
  • Flutter 混合开发

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • Base64 字符串编码/解码

    将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online