跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
PythonAI算法

llama-cpp-python 完整安装与配置指南

介绍 llama-cpp-python 的安装与配置方法。支持通过 pip 直接安装源码或预构建轮子。提供 CUDA、Metal 及 OpenBLAS 硬件加速配置方案。涵盖 Windows 与 MacOS 常见错误解决,以及开发环境搭建。包含高级 API 调用示例,如文本生成与聊天完成功能,帮助开发者快速在本地部署大语言模型。

开源信徒发布于 2026/4/6更新于 2026/5/2225 浏览

基础安装:一键搞定

llama-cpp-python 的安装过程极其简单,只需运行以下命令:

pip install llama-cpp-python 

这个命令会自动从源码构建 llama.cpp,并将其与 Python 包一起安装。如果遇到构建问题,可以添加 --verbose 参数查看详细构建日志。

硬件加速配置方案

为了获得最佳性能表现,您可以根据自己的硬件配置选择合适的加速后端。

CUDA 加速配置(NVIDIA 显卡用户)
CMAKE_ARGS="-DGGML_CUDA=on" pip install llama-cpp-python 
Metal 加速配置(苹果设备用户)
CMAKE_ARGS="-DGGML_METAL=on" pip install llama-cpp-python 
OpenBLAS 加速配置(CPU 优化方案)
CMAKE_ARGS="-DGGML_BLAS=ON -DGGML_BLAS_VENDOR=OpenBLAS" pip install llama-cpp-python 

预构建轮子安装方法

如果您不想从源码编译,可以使用预构建的二进制轮子进行快速安装。

基础 CPU 版本
pip install llama-cpp-python --extra-index-url https://abetlen.github.io/llama-cpp-python/whl/cpu 
CUDA 加速版本
pip install llama-cpp-python --extra-index-url https://abetlen.github.io/llama-cpp-python/whl/cu121 

快速验证安装结果

安装完成后,您可以通过创建一个简单的测试脚本来验证安装是否成功:

from llama_cpp import Llama
# 初始化模型(请替换为实际模型路径)
llm = Llama(model_path="./models/your-model.gguf")
# 进行简单的文本生成测试
output = llm("你好,请介绍一下你自己", max_tokens=32)
print(output)

常见安装问题解决方案

Windows 系统安装问题

如果在 Windows 系统上遇到'找不到 nmake'或 CMAKE_C_COMPILER 相关错误,可以设置以下环境变量:

$env:CMAKE_GENERATOR = "MinGW Makefiles"
$env:CMAKE_ARGS = "-DGGML_OPENBLAS=on -DCMAKE_C_COMPILER=C:/w64devkit/bin/gcc.exe"
MacOS 系统注意事项

苹果 M 系列芯片用户务必安装 ARM64 版本的 Python,否则性能会大幅下降。

开发环境搭建指南

如果您想要参与项目开发或进行定制化修改,可以按照以下步骤搭建开发环境:

git clone --recurse-submodules https://github.com/abetlen/llama-cpp-python
cd llama-cpp-python
# 升级 pip 以确保兼容性
pip install --upgrade pip
# 以可编辑模式安装
pip install -e .
# 安装服务器功能(可选)
pip install -e '.[server]'

核心功能模块介绍

高级 API 使用示例

llama-cpp-python 提供了简单易用的高级 API 接口:

from llama_cpp import Llama

# 初始化模型并设置参数
llm = Llama(
    model_path="./models/7B/llama-model.gguf",
    n_ctx=2048,  # 设置上下文窗口大小
    n_gpu_layers=-1,  # 启用 GPU 加速
    seed=1337  # 设置随机种子
)

# 创建文本补全
response = llm.create_completion(
    prompt="请解释什么是人工智能",
    max_tokens=100,
    temperature=0.7
)
聊天完成功能
# 创建聊天完成
chat_response = llm.create_chat_completion(
    messages=[
        {"role": "system", "content": "你是一个乐于助人的 AI 助手"},
        {"role": "user", "content": "今天天气怎么样?"}
    ]
)

目录

  1. 基础安装:一键搞定
  2. 硬件加速配置方案
  3. CUDA 加速配置(NVIDIA 显卡用户)
  4. Metal 加速配置(苹果设备用户)
  5. OpenBLAS 加速配置(CPU 优化方案)
  6. 预构建轮子安装方法
  7. 基础 CPU 版本
  8. CUDA 加速版本
  9. 快速验证安装结果
  10. 初始化模型(请替换为实际模型路径)
  11. 进行简单的文本生成测试
  12. 常见安装问题解决方案
  13. Windows 系统安装问题
  14. MacOS 系统注意事项
  15. 开发环境搭建指南
  16. 升级 pip 以确保兼容性
  17. 以可编辑模式安装
  18. 安装服务器功能(可选)
  19. 核心功能模块介绍
  20. 高级 API 使用示例
  21. 初始化模型并设置参数
  22. 创建文本补全
  23. 聊天完成功能
  24. 创建聊天完成
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • AI 绘画低成本方案:无独立显卡也能生成高质量商品图
  • AI 赋能数据库运维:金仓 KES 的智能化未来
  • Python 网络编程实战:基于 Socket 实现简易聊天室
  • macOS 完整卸载 OpenClaw 指南(含深度清理)
  • stable-diffusion-webui 照片艺术化风格迁移指南
  • faster-whisper 语音转文字模型选型与对比决策指南
  • GitHub 镜像加速实战:FastGit 与 Zhimg 部署指南
  • AI 时代大模型学习指南:技术原理与 Prompt 技巧总结
  • 文件上传漏洞详解与绕过技巧
  • Windows 系统下安装与编译 llama.cpp
  • Rust WebAssembly 开发实战:构建高性能前端应用
  • 基于 mciSendCommand 的 C++ 音乐播放类实现
  • PostgreSQL 18 Docker 环境搭建与部署实战
  • 5 种小米智能家居接入 HomeAssistant 方案深度对比
  • 智能系统架构设计:对话式 AI、协同驾驶与 RAG 范式
  • Flutter 使用 React 风格库在 OpenHarmony 上的适配与实践
  • Rust 实现二维码艺术生成器:设计与实现
  • Llama-Factory与PyTorch版本兼容性问题排查手册
  • Git 版本控制核心命令与团队协作实战
  • 大语言模型综述:预训练、微调、应用与评估详解

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • curl 转代码

    解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online