基础安装
llama-cpp-python 的安装过程较为简单,通常只需一行命令:
pip install llama-cpp-python
该命令会自动从源码构建 llama.cpp,并将其与 Python 包一起安装。如果遇到构建问题,可以添加 --verbose 参数查看详细构建日志。
硬件加速配置
根据您的硬件选择合适的加速后端以获得最佳性能:
CUDA 加速(NVIDIA 显卡)
CMAKE_ARGS="-DGGML_CUDA=on" pip install llama-cpp-python
Metal 加速(苹果设备)
CMAKE_ARGS="-DGGML_METAL=on" pip install llama-cpp-python
OpenBLAS 加速(CPU 优化)
CMAKE_ARGS="-DGGML_BLAS=ON -DGGML_BLAS_VENDOR=OpenBLAS" pip install llama-cpp-python
预构建包安装
不想从源码编译?可以使用预构建的二进制包:
CPU 版本
pip install llama-cpp-python --extra-index-url https://abetlen.github.io/llama-cpp-python/whl/cpu
CUDA 版本(支持 12.1-12.5)
pip install llama-cpp-python --extra-index-url https://abetlen.github.io/llama-cpp-python/whl/cu121
快速验证安装
安装完成后,创建一个简单的测试脚本来验证:
from llama_cpp import Llama
llm = Llama(model_path="./models/your-model.gguf")
output = llm("你好,世界!", max_tokens=32)
print(output)
常见问题解决方案
Windows 系统兼容设置
如果遇到'找不到 nmake'错误,需要设置环境变量:
$env:CMAKE_GENERATOR = "MinGW Makefiles"
$env:CMAKE_ARGS = "-DGGML_OPENBLAS=on -DCMAKE_C_COMPILER=C:/w64devkit/bin/gcc.exe"
MacOS 性能优化技巧
苹果 M 系列芯片用户务必安装 ARM64 版本的 Python,否则性能会降低。
高级功能配置
llama-cpp-python 不仅提供基础推理能力,还支持:
- OpenAI 兼容 API 服务器
- 多模态模型支持

