llama-cpp-python 安装配置指南

基础安装

llama-cpp-python 的安装过程较为简单，通常只需一行命令：

pip install llama-cpp-python

该命令会自动从源码构建 llama.cpp，并将其与 Python 包一起安装。如果遇到构建问题，可以添加 --verbose 参数查看详细构建日志。

硬件加速配置

根据您的硬件选择合适的加速后端以获得最佳性能：

CUDA 加速（NVIDIA 显卡）

CMAKE_ARGS="-DGGML_CUDA=on" pip install llama-cpp-python

Metal 加速（苹果设备）

CMAKE_ARGS="-DGGML_METAL=on" pip install llama-cpp-python

OpenBLAS 加速（CPU 优化）

CMAKE_ARGS="-DGGML_BLAS=ON -DGGML_BLAS_VENDOR=OpenBLAS" pip install llama-cpp-python

预构建包安装

不想从源码编译？可以使用预构建的二进制包：

CPU 版本

pip install llama-cpp-python --extra-index-url https://abetlen.github.io/llama-cpp-python/whl/cpu

CUDA 版本（支持 12.1-12.5）

pip install llama-cpp-python --extra-index-url https://abetlen.github.io/llama-cpp-python/whl/cu121

快速验证安装

安装完成后，创建一个简单的测试脚本来验证：

from llama_cpp import Llama
llm = Llama(model_path="./models/your-model.gguf")
output = llm("你好，世界！", max_tokens=32)
print(output)

常见问题解决方案

Windows 系统兼容设置

如果遇到'找不到 nmake'错误，需要设置环境变量：

$env:CMAKE_GENERATOR = "MinGW Makefiles"
$env:CMAKE_ARGS = "-DGGML_OPENBLAS=on -DCMAKE_C_COMPILER=C:/w64devkit/bin/gcc.exe"

MacOS 性能优化技巧

苹果 M 系列芯片用户务必安装 ARM64 版本的 Python，否则性能会降低。

高级功能配置

llama-cpp-python 不仅提供基础推理能力，还支持：

OpenAI 兼容 API 服务器
多模态模型支持

llama-cpp-python 安装配置指南

基础安装

硬件加速配置

CUDA 加速（NVIDIA 显卡）

Metal 加速（苹果设备）

OpenBLAS 加速（CPU 优化）

预构建包安装

CPU 版本

CUDA 版本（支持 12.1-12.5）

快速验证安装

常见问题解决方案

Windows 系统兼容设置

MacOS 性能优化技巧

高级功能配置

更多推荐文章

相关免费在线工具

下一步学习路径

更多推荐文章

相关免费在线工具

llama-cpp-python 安装配置指南

基础安装

硬件加速配置

CUDA 加速（NVIDIA 显卡）

Metal 加速（苹果设备）

OpenBLAS 加速（CPU 优化）

预构建包安装

CPU 版本

CUDA 版本（支持 12.1-12.5）

快速验证安装

常见问题解决方案

Windows 系统兼容设置

MacOS 性能优化技巧

高级功能配置

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

下一步学习路径

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具