跳到主要内容
极客日志极客日志
首页博客AI提示词GitHub精选代理工具
|注册
博客列表

目录

  1. llama.cpp + llama-server 安装部署验证
  2. 一、安装系统依赖
  3. 二、克隆并编译 llama.cpp
  4. 1. 克隆仓库
  5. 2. 使用 CMake 构建 server
  6. 三、准备 GGUF 模型
  7. 四、启动服务
  8. 后台启动示例
  9. 五、验证与服务测试
  10. 1. 健康检查
  11. 2. 查看日志
  12. 3. 停止服务
  13. 4. 接口调用示例
C++AI算法

llama.cpp 与 llama-server 安装部署指南

在 Ubuntu 22.04 环境下安装 llama.cpp 及 llama-server 的完整流程。包括系统依赖安装、源码克隆与编译、GGUF 模型下载、服务启动配置以及通过 curl 命令进行健康检查和接口调用的验证方法。重点解决了编译报错问题,并提供了后台运行与日志查看方案。

孤勇者发布于 2026/4/5更新于 2026/4/131 浏览

llama.cpp + llama-server 安装部署验证

推荐使用 Ubuntu 22.04 LTS,自带较新的 GCC、CMake 和 Python,部署过程顺畅。

一、安装系统依赖

sudo apt update
sudo apt install -y git build-essential cmake libssl-dev

二、克隆并编译 llama.cpp

1. 克隆仓库

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp

2. 使用 CMake 构建 server

mkdir build && cd build
sudo apt install -y ninja-build
cmake .. -DCMAKE_BUILD_TYPE=Release -DLLAMA_BUILD_SERVER=ON
make -j $(nproc) llama-server

三、准备 GGUF 模型

下载量化模型(以 Llama-3-8B-Instruct Q6_K 为例)。

pip install --upgrade pip
pip install modelscope
modelscope download --model QuantFactory/Llama-3-8B-Instruct-Coder-GGUF Llama-3-8B-Instruct-Coder.Q6_K.gguf --local_dir ./models
modelscope download --model ngxson/Qwen2.5-7B-Instruct-1M-Q4_K_M-GGUF qwen2.5-7b-instruct-1m-q4_k_m.gguf --local_dir ./models

四、启动服务

./build/bin/llama-server -m ./models/Llama-3-8B-Instruct-Coder.Q6_K.gguf --port 8080 --host 0.0.0.0 --ctx-size 8192 --threads 8

后台启动示例

nohup ./build/bin/llama-server -m ./models/Llama-3-8B-Instruct-Coder.Q6_K.gguf --port 8080 --host 0.0.0.0 --ctx-size 8192 --threads 8 > llama-server.log 2>&1 &

五、验证与服务测试

1. 健康检查

curl http://localhost:8080/health

2. 查看日志

tail -f llama-server.log

3. 停止服务

pkill -f llama-server

4. 接口调用示例

Completion API

极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog

更多推荐文章

查看全部
  • 使用 Trae AI 将设计稿自动生成前端代码指南
  • 马钞预约准备及脚本安装指南
  • OpenClaw 本地部署与配置实战指南
  • OpenClaw 龙虾图鉴:16 款 AI Agent 选型指南
  • FPGA 内部资源详解:LUT、FF、BRAM、DSP、PLL 及综合报告解读
  • Mac mini M4 部署 OpenClaw + Ollama 本地大模型接入飞书机器人
  • OpenClaw WebSocket Channel 开发实战:从零打造自定义 AI 通信通道

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • Base64 字符串编码/解码

    将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online

  • Base64 文件转换器

    将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online

  • Markdown 转 HTML

    将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML 转 Markdown 互为补充。 在线工具,Markdown 转 HTML在线工具,online

curl http://localhost:8080/completion \ -H "Content-Type: application/json" \ -d '{ "prompt": "<|start_header_id|>user<|end_header_id|>\n\n你好,请写一首关于春天的诗。<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n", "n_predict": 150, "stop": ["<|eot_id|"] }'

Chat Completion API

curl http://localhost:8080/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{ "messages": [{"role": "user", "content": "你好!"}], "temperature": 0.7, "max_tokens": 50 }'
  • 文心一言 4.5 开源模型 ERNIE-4.5-0.3B 轻量化部署与优化
  • AI 提示词实战指南:覆盖 20+ 高频场景与技巧
  • AI 大模型学习路线:从入门到精通实战
  • OpenClaw 本地 AI 助手安装与配置指南
  • JDK 17 官方下载及安装配置指南
  • Java 集合框架进阶:Map 接口深度解析与实战
  • 基于 SpringBoot+Vue 的动漫视频分享与交流平台设计与实现
  • 生成合成类算法自评估报告撰写指南与模板示例
  • Windows11 使用 llama.cpp 部署 Qwen3.5 量化模型测试
  • 8 款 AI 写作工具小说创作能力横评
  • 2026 年 AI 编程工具推荐:从 Copilot 到 Trae 的开发者选型指南
  • Java 算法面试基础:语法、容器与工具类总结
  • 二分查找算法经典例题与模板总结