llama.cpp 与 llama-server 安装部署指南
推荐使用 Ubuntu 22.04.5 LTS (Jammy Jellyfish),这是一个长期支持(LTS)且完全受支持的现代 Linux 发行版,非常适合部署 llama.cpp + llama-server。Ubuntu 22.04 自带较新的 GCC、CMake 和 Python,部署过程非常顺畅。
一、安装系统依赖
sudo apt update
sudo apt install -y git build-essential cmake libssl-dev
二、克隆并编译 llama.cpp
1. 克隆仓库
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
2. 使用 CMake 构建 server
mkdir build
cd build
cmake .. -DCMAKE_BUILD_TYPE=Release -DLLAMA_BUILD_SERVER=ON
make -j $(nproc) llama-server
注意:若构建过程中遇到错误,建议清理 build 目录后重新配置 CMake。
三、准备 GGUF 模型
下载量化模型(以 Llama-3-8B-Instruct Q6_K 为例),请从官方模型仓库获取 GGUF 格式文件并保存至本地目录。
四、启动服务
./build/bin/llama-server -m ./models/Llama-3-8B-Instruct.Q6_K.gguf --port 8080 --host 0.0.0.0 --ctx-size 8192 --threads 8
1. 后台启动
nohup ./build/bin/llama-server -m ./models/Llama-3-8B-Instruct.Q6_K.gguf --port 8080 --host 0.0.0.0 --ctx-size 8192 --threads 8 > llama-server.log 2>&1 &
2. 验证
curl http://localhost:8080/health
3. 查日志
tail -f llama-server.log
4. 停止
pkill -f llama-server
5. 接口测试
curl http://localhost:8080/completion \
-H "Content-Type: application/json" \
-d '{ "prompt": "<|start_header_id|>user<|end_header_id|>\n\n你好,请写一首关于春天的诗。<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n", "n_predict": 150, "stop": ["<|eot_id|"] }'

