一、基本介绍
llama.cpp 是由 Georgi Gerganov 发起的纯 C/C++ 开源框架,专注于在本地设备(如普通 PC、树莓派、嵌入式终端)上实现低资源、高性能的大语言模型(LLM)推理。其核心目标是打破云端依赖,让开发者能在消费级硬件上本地运行 Meta LLaMA、Mistral、Gemma 等主流开源模型,兼顾隐私保护与推理效率。
二、核心特点
1. 极致轻量与高效
- 纯 C/C++ 实现:无第三方依赖,对 CPU 架构(x86、ARM)深度优化,支持 4-bit、8-bit 等低精度量化(如 GGUF 格式),大幅降低模型体积(例如 7B 参数模型可压缩至 4GB 以内)和内存占用。
- 多硬件加速:支持多核 CPU 并行计算,同时兼容 CUDA(NVIDIA GPU)、Metal(Apple Silicon)、Vulkan 等 GPU 后端,提升推理速度。
2. 跨平台支持
可运行于Linux、macOS、Windows、Android、iOS等主流系统,甚至能在树莓派、Steam Deck 等嵌入式设备上部署,覆盖从服务器到终端的全场景。
3. 开源与生态丰富
- 完全开源,社区活跃,提供丰富的 API 接口与工具链支持。


