llama-cpp-python 完整安装与配置指南 | 极客日志

PythonAI算法

llama-cpp-python 完整安装与配置指南

介绍 llama-cpp-python 的安装与配置方法。支持 pip 直接安装、源码编译及预构建轮子。提供 CUDA、Metal 和 OpenBLAS 硬件加速方案，涵盖 Windows 和 macOS 常见问题解决。包含基础 API 使用示例、聊天完成功能及性能优化技巧，帮助开发者在本地高效部署大型语言模型。

JavaCoder发布于 2026/4/6更新于 2026/5/2023 浏览

llama-cpp-python 完整安装与配置指南

想要在本地轻松运行大型语言模型却担心复杂的安装过程？llama-cpp-python 作为 llama.cpp 的 Python 绑定库，提供了简单易用的 AI 开发体验。本文将带您从零开始，快速掌握这个强大工具的安装配置方法。

基础安装：一键搞定

llama-cpp-python 的安装过程极其简单，只需运行以下命令：

pip install llama-cpp-python

这个命令会自动从源码构建 llama.cpp，并将其与 Python 包一起安装。如果遇到构建问题，可以添加 --verbose 参数查看详细构建日志。

硬件加速配置方案

为了获得最佳性能表现，您可以根据自己的硬件配置选择合适的加速后端。

CUDA 加速配置（NVIDIA 显卡用户）

CMAKE_ARGS="-DGGML_CUDA=on" pip install llama-cpp-python

Metal 加速配置（苹果设备用户）

CMAKE_ARGS="-DGGML_METAL=on" pip install llama-cpp-python

OpenBLAS 加速配置（CPU 优化方案）

CMAKE_ARGS="-DGGML_BLAS=ON -DGGML_BLAS_VENDOR=OpenBLAS" pip install llama-cpp-python

预构建轮子安装方法

如果您不想从源码编译，可以使用预构建的二进制轮子进行快速安装。

基础 CPU 版本

pip install llama-cpp-python --extra-index-url https://abetlen.github.io/llama-cpp-python/whl/cpu

CUDA 加速版本

pip install llama-cpp-python --extra-index-url https://abetlen.github.io/llama-cpp-python/whl/cu121

快速验证安装结果

安装完成后，您可以通过创建一个简单的测试脚本来验证安装是否成功：

from llama_cpp import Llama

# 初始化模型（请替换为实际模型路径）
llm = Llama(model_path="./models/your-model.gguf")

# 进行简单的文本生成测试
output = llm("你好，请介绍一下你自己", max_tokens=32)
print(output)

常见安装问题解决方案

Windows 系统安装问题

如果在 Windows 系统上遇到'找不到 nmake'或 CMAKE_C_COMPILER 相关错误，可以设置以下环境变量：

$env:CMAKE_GENERATOR = 
:CMAKE_ARGS =

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

git clone --recurse-submodules https://github.com/abetlen/llama-cpp-python
cd llama-cpp-python

# 升级 pip 以确保兼容性
pip install --upgrade pip

# 以可编辑模式安装
pip install -e .

# 安装服务器功能（可选）
pip install -e '.[server]'

from llama_cpp import Llama

# 初始化模型并设置参数
llm = Llama(
    model_path="./models/7B/llama-model.gguf",
    n_ctx=2048,          # 设置上下文窗口大小
    n_gpu_layers=-1,     # 启用 GPU 加速
    seed=1337            # 设置随机种子
)

# 创建文本补全
response = llm.create_completion(
    prompt="请解释什么是人工智能",
    max_tokens=100,
    temperature=0.7
)

# 创建聊天完成
chat_response = llm.create_chat_completion(
    messages=[
        {"role": "system", "content": "你是一个乐于助人的 AI 助手"},
        {"role": "user", "content": "今天天气怎么样？"}
    ]
)

llama-cpp-python 完整安装与配置指南

llama-cpp-python 完整安装与配置指南

基础安装：一键搞定

硬件加速配置方案

CUDA 加速配置（NVIDIA 显卡用户）

Metal 加速配置（苹果设备用户）

OpenBLAS 加速配置（CPU 优化方案）

预构建轮子安装方法

基础 CPU 版本

CUDA 加速版本

快速验证安装结果

常见安装问题解决方案

Windows 系统安装问题

更多推荐文章

相关免费在线工具

MacOS 系统注意事项

开发环境搭建指南

核心功能模块介绍

高级 API 使用示例

聊天完成功能

实用工具和资源

性能优化技巧

下一步学习建议

更多推荐文章

相关免费在线工具

llama-cpp-python 完整安装与配置指南

llama-cpp-python 完整安装与配置指南

基础安装：一键搞定

硬件加速配置方案

CUDA 加速配置（NVIDIA 显卡用户）

Metal 加速配置（苹果设备用户）

OpenBLAS 加速配置（CPU 优化方案）

预构建轮子安装方法

基础 CPU 版本

CUDA 加速版本

快速验证安装结果

常见安装问题解决方案

Windows 系统安装问题

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

MacOS 系统注意事项

开发环境搭建指南

核心功能模块介绍

高级 API 使用示例

聊天完成功能

实用工具和资源

性能优化技巧

下一步学习建议

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具