llama-cpp-python 从安装到性能优化指南 | 极客日志

PythonAI算法

llama-cpp-python 从安装到性能优化指南

介绍 llama-cpp-python 的本地部署流程，涵盖 pip 安装、硬件加速配置（CUDA/Metal/OpenBLAS）及预构建方案。提供聊天应用代码示例，包含模型初始化、对话调用及 API 服务搭建。同时解决 Windows 编译、内存不足等常见问题，帮助开发者在本地高效运行大语言模型。

板砖工程师发布于 2026/4/5更新于 2026/5/2222 浏览

llama-cpp-python 从安装到性能优化指南

在 AI 应用开发中，本地运行大语言模型常面临依赖复杂、编译困难及硬件兼容性问题。llama-cpp-python 通过简洁的 Python 绑定访问 llama.cpp 推理引擎，有效解决上述痛点。

安装步骤

第一步：一键安装核心库

pip install llama-cpp-python

该命令会自动处理构建过程，包括源码编译 llama.cpp 并与 Python 集成。

第二步：验证安装结果

创建测试脚本确认安装成功：

from llama_cpp import Llama

# 加载你的模型文件
llm = Llama(model_path="./models/your-model.gguf")

# 运行第一个推理任务
response = llm("你好，请介绍一下你自己", max_tokens=64)
print(response['choices'][0]['text'])

第三步：环境检查

python -c "from llama_cpp import Llama; print('安装成功！')"

注意：如果遇到构建问题，添加 --verbose 参数可查看详细日志。

性能优化

根据硬件配置选择合适的加速方案以获得最佳推理速度：

NVIDIA 显卡用户：CUDA 加速

CMAKE_ARGS="-DGGML_CUDA=on" pip install llama-cpp-python

苹果设备用户：Metal 加速

CMAKE_ARGS="-DGGML_METAL=on" pip install llama-cpp-python

专业建议：苹果 M 系列芯片用户务必安装 ARM64 版本的 Python，否则性能损失可能高达 90%。

CPU 优化方案：OpenBLAS 加速

CMAKE_ARGS="-DGGML_BLAS=ON -DGGML_BLAS_VENDOR=OpenBLAS" pip install llama-cpp-python

预构建方案

不想折腾编译环境？可使用预构建的二进制轮子：

纯 CPU 版本（兼容性最佳）

pip install llama-cpp-python --extra-index-url https://abetlen.github.io/llama-cpp-python/whl/cpu

CUDA 加速版本（性能最优）

pip install llama-cpp-python --extra-index-url https://abetlen.github.io/llama-cpp-python/whl/cu121

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

from llama_cpp import Llama

def init_chat_model():
    """初始化聊天模型"""
    llm = Llama(
        model_path="./models/chat-model.gguf",
        n_ctx=2048,       # 上下文长度
        n_threads=4,      # 线程数
        verbose=True      # 显示详细日志
    )
    return llm

def chat_with_ai(llm, message):
    """与 AI 进行对话"""
    response = llm.create_chat_completion(
        messages=[{"role": "user", "content": message}]
    )
    return response['choices'][0]['message']['content']

if __name__ == "__main__":
    model = init_chat_model()
    answer = chat_with_ai(model, "请用中文回答：什么是机器学习？")
    print("AI 回复：", answer)

$env:CMAKE_GENERATOR = "MinGW Makefiles"
$env:CMAKE_ARGS = "-DGGML_OPENBLAS=on -DCMAKE_C_COMPILER=C:/w64devkit/bin/gcc.exe"

llm = Llama(
    model_path="./models/7b-model-q4_0.gguf", # 4 位量化版本
    n_ctx=1024,                               # 减少上下文长度
    n_batch=128                               # 减小批处理大小
)

from llama_cpp.server.app import create_app
app = create_app(model_path="./models/your-model.gguf")
app.run(host="0.0.0.0", port=8000)

from llama_cpp import Llama, Llava15Model
model = Llava15Model.from_pretrained("your-multimodal-model")

llama-cpp-python 从安装到性能优化指南

llama-cpp-python 从安装到性能优化指南

安装步骤

第一步：一键安装核心库

第二步：验证安装结果

第三步：环境检查

性能优化

NVIDIA 显卡用户：CUDA 加速

苹果设备用户：Metal 加速

CPU 优化方案：OpenBLAS 加速

预构建方案

纯 CPU 版本（兼容性最佳）

CUDA 加速版本（性能最优）

更多推荐文章

相关免费在线工具

代码示例

常见问题

Windows 系统问题

内存不足问题

模型加载失败

高级功能

OpenAI 兼容 API 服务器

多模态模型支持

函数调用功能

更多推荐文章

相关免费在线工具

llama-cpp-python 从安装到性能优化指南

llama-cpp-python 从安装到性能优化指南

安装步骤

第一步：一键安装核心库

第二步：验证安装结果

第三步：环境检查

性能优化

NVIDIA 显卡用户：CUDA 加速

苹果设备用户：Metal 加速

CPU 优化方案：OpenBLAS 加速

预构建方案

纯 CPU 版本（兼容性最佳）

CUDA 加速版本（性能最优）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

代码示例

常见问题

Windows 系统问题

内存不足问题

模型加载失败

高级功能

OpenAI 兼容 API 服务器

多模态模型支持

函数调用功能

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具