llama.cpp 与 llama-server 安装部署验证 | 极客日志

C++AI算法

llama.cpp 与 llama-server 安装部署验证

综述由AI生成在 Ubuntu 22.04 LTS 环境下安装部署 llama.cpp 及 llama-server 的完整流程。包括系统依赖安装、源码编译构建服务器端、准备 GGUF 格式模型文件，以及启动服务并通过 curl 命令进行健康检查和对话测试。解决了编译报错问题，提供了后台运行和日志查看方法，适用于本地或云端环境部署 LLM 推理服务。

神经兮兮发布于 2026/4/6更新于 2026/5/2328 浏览

llama.cpp + llama-server 的安装部署验证

环境准备

使用 Ubuntu 22.04.5 LTS (Jammy Jellyfish) —— 这是一个长期支持（LTS）且完全受支持的现代 Linux 发行版，非常适合部署 llama.cpp + llama-server。Ubuntu 22.04 自带较新的 GCC、CMake 和 Python，无需手动升级工具链。

1. 检查系统版本

cat /etc/os-release

显示为 Ubuntu 22.04.5 LTS。

一、安装系统依赖

sudo apt update
sudo apt install -y git build-essential cmake libssl-dev ninja-build

二、克隆并编译 llama.cpp

1. 克隆仓库

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp

2. 构建 server

mkdir build && cd build
cmake .. -DCMAKE_BUILD_TYPE=Release -DLLAMA_BUILD_SERVER=ON
make -j $(nproc) llama-server

三、准备 GGUF 模型

1. 下载量化模型

从模型仓库下载所需的 GGUF 格式模型文件（例如 Llama-3-8B-Instruct 或 Qwen2.5-7B-Instruct），并保存至本地目录。

四、启动服务

1. 前台启动测试

./build/bin/llama-server -m ./models/Llama-3-8B-Instruct-Coder.Q6_K.gguf --port 8080 --host 0.0.0.0 --ctx-size 2048 --threads 8

2. 后台启动

nohup ./build/bin/llama-server -m ./models/Llama-3-8B-Instruct-Coder.Q6_K.gguf --port 8080 --host 0.0.0.0 --ctx-size 8192 --threads 8 > ./llama-server.log 2>&1 &

五、验证服务

1. 健康检查

curl http://localhost:8080/health

2. 查看日志

tail -f ./llama-server.log

3. 停止服务

pkill -f llama-server

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online

curl http://localhost:8080/completion \
  -H "Content-Type: application/json" \
  -d '{ "prompt": "<|start_header_id|>user<|end_header_id|>\n\n你好，请写一首关于春天的诗。<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n", "n_predict": 150, "stop": ["<|eot_id|"] }'

curl http://localhost:8080/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{ "messages": [{"role": "user", "content": "你好！"}], "temperature": 0.7, "max_tokens": 50 }'

llama.cpp 与 llama-server 安装部署验证

llama.cpp + llama-server 的安装部署验证

环境准备

1. 检查系统版本

一、安装系统依赖

二、克隆并编译 llama.cpp

1. 克隆仓库

2. 构建 server

三、准备 GGUF 模型

1. 下载量化模型

四、启动服务

1. 前台启动测试

2. 后台启动

五、验证服务

1. 健康检查

2. 查看日志

3. 停止服务

更多推荐文章

相关免费在线工具

4. 接口测试

Completion 接口

Chat 接口

更多推荐文章

相关免费在线工具

llama.cpp 与 llama-server 安装部署验证

llama.cpp + llama-server 的安装部署验证

环境准备

1. 检查系统版本

一、安装系统依赖

二、克隆并编译 llama.cpp

1. 克隆仓库

2. 构建 server

三、准备 GGUF 模型

1. 下载量化模型

四、启动服务

1. 前台启动测试

2. 后台启动

五、验证服务

1. 健康检查

2. 查看日志

3. 停止服务

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

4. 接口测试

Completion 接口

Chat 接口

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具