llama.cpp + llama-server 的安装部署验证

优质文章学习记录

07 Apr 2026 — 4 min read

用的是魔塔的免费资源不太稳定

cat /etc/os-release

Ubuntu 22.04.5 LTS (Jammy Jellyfish) —— 这是一个长期支持（LTS）且完全受支持的现代 Linux 发行版，非常适合部署 llama.cpp + llama-server。Ubuntu 22.04 自带较新的 GCC（11+）、CMake（3.22+）和 Python 3.10+，无需手动升级工具链，部署过程非常顺畅。

一、安装系统依赖
sudo apt update

sudo apt install -y git build-essential cmake libssl-dev

二、克隆并编译 llama.cpp

1. 克隆仓库

git clone https://github.com/ggerganov/llama.cpp

cd llama.cpp

步骤 3：使用 CMake 构建 `server`

mkdir build

sudo apt install -y ninja-build

cd build

cmake .. -G Ninja

ninja server 报错了

rm -rf build
重新来
mkdir build && cd build
cmake .. -DCMAKE_BUILD_TYPE=Release -DLLAMA_BUILD_SERVER=ON

make -j $(nproc) llama-server

三、准备 GGUF 模型

下载量化模型（以 Llama-3-8B-Instruct Q4_K_M 为例）
cd /mnt/data/

pip install --upgrade pip

pip install modelscope

modelscope download --model QuantFactory/Llama-3-8B-Instruct-Coder-GGUF Llama-3-8B-Instruct-Coder.Q6_K.gguf --local_dir /mnt/data

modelscope download --model ngxson/Qwen2.5-7B-Instruct-1M-Q4_K_M-GGUF qwen2.5-7b-instruct-1m-q4_k_m.gguf --local_dir /mnt/data

Qwen2.5-7B-Instruct-1M-Q4_K_M-GGUF · 模型库

Llama-3-8B-Instruct-Coder-GGUF · 模型库

# 启动

/mnt/workspace/llama.cpp/build/bin/llama-server -m /mnt/data/Llama-3-8B-Instruct-Coder.Q6_K.gguf --port 8080 --host 0.0.0.0 --ctx-size 2048 --threads 8

# 1. 后台启动

nohup /mnt/workspace/llama.cpp/build/bin/llama-server -m /mnt/data/Llama-3-8B-Instruct-Coder.Q6_K.gguf --port 8080 --host 0.0.0.0 --ctx-size 8192 --threads 8 > /mnt/workspace/llama-server.log 2>&1 &

nohup /mnt/workspace/llama.cpp/build/bin/llama-server -m /mnt/data/qwen2.5-7b-instruct-1m-q4_k_m.gguf --port 8080 --host 0.0.0.0 --ctx-size 8192 --threads 8 > /mnt/workspace/llama-server.log 2>&1 &

# 2. 验证

curl http://localhost:8080/health

# 3. 查日志

tail -f /mnt/workspace/llama-server.log

# 4. 停止

pkill -f llama-server

curl http://localhost:8080/completion \ -H "Content-Type: application/json" \ -d '{ "prompt": "<|start_header_id|>user<|end_header_id|>\n\n你好，请写一首关于春天的诗。<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n", "n_predict": 150, "stop": ["<|eot_id|>"] }'

curl http://localhost:8080/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "messages": [{"role": "user", "content": "你好！"}], "temperature": 0.7, "max_tokens": 50 }'

前端小案例——网页井字棋

前言：我们在学习完了HTML、CSS和JavaScript之后，就会想着使用这三个东西去做一些小案例，不过又没有什么好的案例让我们去练手，本篇文章就提供里一个案例——网页井字棋。 ✨✨✨这里是秋刀鱼不做梦的BLOG ✨✨✨想要了解更多内容可以访问我的主页秋刀鱼不做梦-ZEEKLOG博客目录写在前面 ——该案例的全部代码已经放在文章末尾，有兴趣的读者可以到最后将全部代码复制到自己的编译器上运行，感受一下井字棋案例的最终效果！！！ ——首先先让我们了解一下我们需要了解的前置知识： 1.HTML骨架 2.CSS装饰 1. 引入字体和全局样式 2.设置 body 样式 3 设置 .wrapper 样式 4.设置 .current-status 和其中的元素样式 5.设置 board 和 .cell 样式 6.鼠标悬浮时的图片效果 7.设置 game-end-overlay 样式 8 设置 .winning-message 样式 9.

AI Skills：前端新的效率神器

近来，AI 领域有个火爆的话题：Skills。 Github 上被疯狂 star 的仓库，很多都是和 skills 有关的。有的仓库仅仅上线三个月就获得了快 50K 的 star，Skills 的火热可见一斑。不管是大模型，还是 Cursor、Codex、Claude、Trae、Copilot 等编程 IDE 都在争先支持 Skills。围绕 Skills，它们在做的就是为了完成一件事情：技能是通过学习和反复练习获得的，而 Skills 是把经验和最佳实践沉淀为 AI 能力，将“知道”转化为“做到”的本领。详解什么是 Skills 要说清楚什么是 Skills，先来了解一下关于 AI 的 2

前端监控：别等用户告诉你应用崩了

前端监控：别等用户告诉你应用崩了毒舌时刻这代码写得跟网红滤镜似的——仅供参考。各位前端同行，咱们今天聊聊前端监控。别告诉我你还在等用户截图告诉你应用崩了，那感觉就像等邻居来告诉你你家着火了——能知道，但已经晚了。为什么你需要前端监控最近看到一个项目，生产环境崩溃了 3 小时，开发团队却一无所知。我就想问：你是在做应用还是在做猜谜游戏？反面教材 // 反面教材：没有监控 // components/Checkout.jsx export default function Checkout() { const [loading, setLoading] = useState(false); const handleSubmit = async () => { setLoading(true); try { await api.checkout(); // 成功处理 } catch (error) { // 只在控制台打印错误 console.error(

前端SSG：静态站点生成的艺术

前端SSG：静态站点生成的艺术毒舌时刻前端SSG？这不是给博客用的吗？ "我的应用需要动态内容，SSG不适合"——结果首屏加载慢，SEO差， "SSG就是静态HTML，太简单了"——结果构建时间长，数据更新困难， "我用SSR就够了"——结果服务器压力大，响应慢。醒醒吧，SSG不是简单的静态HTML，而是一种现代化的前端架构！为什么你需要这个？ * 性能优异：静态文件加载快，无需服务器渲染 * SEO友好：所有内容都是静态的，搜索引擎容易收录 * 部署简单：可以部署到任何静态文件服务器 * 安全性高：没有服务器端代码，减少攻击面反面教材 // 反面教材：纯静态HTML <!DOCTYPE html> <html> <head>