llama.cpp 安装与使用指南

llama.cpp 安装与使用指南

最新在使用llama.cpp的开源框架,所以简单写一下安装过程以及相关的介绍。

llama.cpp 是一个高性能的开源推理框架,用于在 CPU 和 GPU 上运行 LLaMA
系列及其他兼容的 Transformer 模型。
它的特点是轻量、跨平台、可在无显卡的设备上运行,同时对显卡显存利用率很高。


1. 项目介绍

llama.cpp 主要功能: - 支持多种量化格式(Q4, Q5, Q8, Q2
等),显著减少显存占用。 - 支持
CPU、GPU(CUDA、Metal、OpenCL、Vulkan)等多种后端。 - 提供简单易用的 CLI
和 HTTP 服务接口。 - 支持大多数 Hugging Face 上的
LLaMA、Qwen、Mistral、Baichuan、ChatGLM 等模型(需转换为 GGUF 格式)。

项目地址:https://github.com/ggerganov/llama.cpp


2. 安装方法

2.1 使用预编译版本(推荐新手)

  1. Releases
    页面下载适配系统的二进制包(Windows/Linux/macOS)。
  2. 解压到目标目录。

测试是否可运行:

./llama-cli --help

2.2 从源代码构建(适合需要定制化)

依赖环境
  • Linux / macOS / Windows WSL
  • cmake(>= 3.20)
  • make
  • gcc / clang
  • CUDA Toolkit(如果需要 GPU 加速)
构建步骤(Linux / macOS)
# 克隆项目git clone https://github.com/ggerganov/llama.cpp.git cd llama.cpp # 创建构建目录mkdir build &&cd build # GPU 版本(CUDA) cmake ..-DLLAMA_CUBLAS=ON make -j$(nproc)# CPU 版本 cmake ..make -j$(nproc)

构建完成后会生成: - llama-cli:命令行推理工具 - llama-server:HTTP
API 服务 - quantize:模型量化工具


3. 模型准备

3.1 下载模型

可以从 Hugging Face 下载模型权重(需要科学上网),例如:

git lfs installgit clone https://huggingface.co/Qwen/Qwen2-7B 

3.2 转换为 GGUF 格式

llama.cpp 只能加载 GGUF 格式模型,需要用官方脚本转换:

python3 convert.py /path/to/model --outfile model.gguf 

3.3 量化模型(可选,减少显存)

./quantize model.gguf model-q4_0.gguf q4_0 

4. 启动 HTTP 服务

./llama-server -m ./model-q4_0.gguf --port9558 --gpu-layers 40

参数说明: - -m:模型路径 - --port:HTTP 服务端口 -
--gpu-layers:加载到 GPU 的层数(越多显存占用越高,推理更快)


5. 常见问题

Q1: CUDA 版本报错 libcublas.so not found

原因:CUDA Toolkit 未正确安装或路径未添加。 解决:

exportLD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH

Q2: 显存不足

  • 尝试使用更低精度的量化(如 q4_0, q3_k_m)。
  • 减少 --gpu-layers 数值。

Q3: 端口占用

修改 --port 参数,或释放对应端口:

sudolsof-i:9558sudokill-9<pid>

6. 总结

llama.cpp
是运行大模型的轻量高效方案,不依赖重型推理框架,可以在几乎任何设备上运行。
如果你的目标是本地部署、低延迟推理,且显存有限,那么它非常适合你。

Read more

LLaMA-Factory 推理全攻略:从配置到实战

LLaMA-Factory 推理实战:从配置到生产部署的全流程指南 在大模型落地越来越依赖“微调+推理”闭环的今天,一个真正高效、灵活且工程友好的工具链显得尤为重要。LLaMA-Factory 正是这样一个被低估却极具生产力的开源框架——它不只解决了微调难题,更打通了从本地测试到生产服务的最后一环。 与其说它是某个模型的配套工具,不如说它是一个标准化的大语言模型运行时平台。无论你用的是通义千问、百川、ChatGLM 还是 Llama 3,只要配置得当,都能以统一的方式加载、对话、批量生成甚至发布为 API。这种“一次配置、多端运行”的能力,正是现代 AI 工程化的理想形态。 我们不妨从一个实际场景切入:假设你已经完成了一个医疗领域 LoRA 微调模型,现在需要验证效果、批量生成知识问答,并最终部署成内部系统可用的服务接口。这个过程会涉及哪些关键步骤?又有哪些坑值得警惕? 整个流程可以归结为三个阶段:准备 → 执行 → 优化。 首先,环境必须干净可控。推荐使用 Python

Qwen2.5-7B+Stable Diffusion组合镜像:多模态一站体验

Qwen2.5-7B+Stable Diffusion组合镜像:多模态一站体验 你是不是也遇到过这样的情况:写文案时想配图,却要切换到另一个工具;画好了图又想加点描述,还得打开聊天模型;来回切换软件、管理多个部署环境,不仅麻烦还容易出错。尤其对内容创作者来说,语言 + 图像的协同创作本该是常态,但现实中却常常被技术门槛卡住。 现在,有了 Qwen2.5-7B + Stable Diffusion 组合镜像,这一切变得简单了。这是一套专为内容创作者打造的“多模态全能环境”——一次部署,同时拥有强大的中文对话能力与高质量图像生成能力,无需再分别配置两个系统,也不用担心依赖冲突或资源浪费。 这个镜像预装了: - Qwen2.5-7B-Instruct:通义千问最新版本,支持流畅中文对话、文案撰写、脚本生成、逻辑推理等任务 - Stable Diffusion WebUI(如SDXL或1.5版本):业界主流图像生成框架,支持文生图、图生图、局部重绘等功能

SD-PPP完整指南:Photoshop与AI绘画的无缝集成方案

SD-PPP完整指南:Photoshop与AI绘画的无缝集成方案 【免费下载链接】sd-pppGetting/sending picture from/to Photoshop in ComfyUI or SD 项目地址: https://gitcode.com/gh_mirrors/sd/sd-ppp SD-PPP(Photoshop Picture Portal)是一款革命性的开源工具,专门为设计师和AI绘画爱好者打造,实现了Photoshop与ComfyUI之间的高效图片传输通道。本指南将带你从零开始掌握这一强大工具的安装、配置和应用技巧。 🎯 项目核心亮点 SD-PPP为你的创意工作流带来全新体验: * 双向数据流通 - 支持Photoshop图层到AI模型的无缝往返传输 * 多实例并行处理 - 同时运行多个Photoshop项目,提升工作效率 * 智能图层管理 - 精准控制单个图层或图层组的独立操作 * 预设模板库 - 内置丰富的工作流配置,快速启动各类AI绘画任务 🚀 3分钟快速安装指南 环境要求检查: 确保你的系统满足以下条件: * Ad

AI绘画R18提示词实战指南:从基础原理到安全实践

快速体验 在开始今天关于 AI绘画R18提示词实战指南:从基础原理到安全实践 的探讨之前,我想先分享一个最近让我觉得很有意思的全栈技术挑战。 我们常说 AI 是未来,但作为开发者,如何将大模型(LLM)真正落地为一个低延迟、可交互的实时系统,而不仅仅是调个 API? 这里有一个非常硬核的动手实验:基于火山引擎豆包大模型,从零搭建一个实时语音通话应用。它不是简单的问答,而是需要你亲手打通 ASR(语音识别)→ LLM(大脑思考)→ TTS(语音合成)的完整 WebSocket 链路。对于想要掌握 AI 原生应用架构的同学来说,这是个绝佳的练手项目。 从0到1构建生产级别应用,脱离Demo,点击打开 从0打造个人豆包实时通话AI动手实验 AI绘画R18提示词实战指南:从基础原理到安全实践 背景痛点分析 1. 伦理风险与合规挑战 在AI绘画领域,R18内容创作面临着多重挑战。平台审核机制日益严格,违规内容可能导致账号封禁甚至法律风险。同时,不同地区对数字内容的法律界定存在差异,开发者需要特别注意合规边界。