llama.cpp + llama-server 的安装部署验证

飞桨AI Studio星河社区-人工智能学习与实训社区

用的是 魔塔的免费资源 不太稳定

我的Notebook · 魔搭社区

cat /etc/os-release

 Ubuntu 22.04.5 LTS (Jammy Jellyfish) —— 这是一个长期支持(LTS)且完全受支持的现代 Linux 发行版,非常适合部署 llama.cpp + llama-server。Ubuntu 22.04 自带较新的 GCC(11+)、CMake(3.22+)和 Python 3.10+,无需手动升级工具链,部署过程非常顺畅。

一、安装系统依赖
sudo apt update

sudo apt install -y git build-essential cmake libssl-dev

二、克隆并编译 llama.cpp

1. 克隆仓库

git clone https://github.com/ggerganov/llama.cpp

cd llama.cpp

步骤 3:使用 CMake 构建 server

mkdir build

sudo apt install -y ninja-build

cd build

cmake .. -G Ninja

ninja server  报错了

rm -rf build  
重新来
mkdir build && cd build
cmake .. -DCMAKE_BUILD_TYPE=Release -DLLAMA_BUILD_SERVER=ON


make -j $(nproc) llama-server

三、准备 GGUF 模型

下载量化模型(以 Llama-3-8B-Instruct Q4_K_M 为例)
cd /mnt/data/

pip install --upgrade pip

pip install modelscope

modelscope download --model QuantFactory/Llama-3-8B-Instruct-Coder-GGUF Llama-3-8B-Instruct-Coder.Q6_K.gguf --local_dir /mnt/data

modelscope download --model ngxson/Qwen2.5-7B-Instruct-1M-Q4_K_M-GGUF qwen2.5-7b-instruct-1m-q4_k_m.gguf --local_dir /mnt/data

Qwen2.5-7B-Instruct-1M-Q4_K_M-GGUF · 模型库

Llama-3-8B-Instruct-Coder-GGUF · 模型库


# 启动

/mnt/workspace/llama.cpp/build/bin/llama-server -m /mnt/data/Llama-3-8B-Instruct-Coder.Q6_K.gguf --port 8080 --host 0.0.0.0 --ctx-size 2048 --threads 8

# 1. 后台启动

nohup /mnt/workspace/llama.cpp/build/bin/llama-server -m /mnt/data/Llama-3-8B-Instruct-Coder.Q6_K.gguf --port 8080 --host 0.0.0.0 --ctx-size 8192 --threads 8 > /mnt/workspace/llama-server.log 2>&1 &

nohup /mnt/workspace/llama.cpp/build/bin/llama-server -m /mnt/data/qwen2.5-7b-instruct-1m-q4_k_m.gguf --port 8080 --host 0.0.0.0 --ctx-size 8192 --threads 8 > /mnt/workspace/llama-server.log 2>&1 &

# 2. 验证

curl http://localhost:8080/health

# 3. 查日志

tail -f /mnt/workspace/llama-server.log

# 4. 停止

pkill -f llama-server

curl http://localhost:8080/completion \ -H "Content-Type: application/json" \ -d '{ "prompt": "<|start_header_id|>user<|end_header_id|>\n\n你好,请写一首关于春天的诗。<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n", "n_predict": 150, "stop": ["<|eot_id|>"] }'

curl http://localhost:8080/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "messages": [{"role": "user", "content": "你好!"}], "temperature": 0.7, "max_tokens": 50 }'

Read more

前端小案例——网页井字棋

前端小案例——网页井字棋

前言:我们在学习完了HTML、CSS和JavaScript之后,就会想着使用这三个东西去做一些小案例,不过又没有什么好的案例让我们去练手,本篇文章就提供里一个案例——网页井字棋。 ✨✨✨这里是秋刀鱼不做梦的BLOG ✨✨✨想要了解更多内容可以访问我的主页秋刀鱼不做梦-ZEEKLOG博客 目录 写在前面         ——该案例的全部代码已经放在文章末尾,有兴趣的读者可以到最后将全部代码复制到自己的编译器上运行,感受一下井字棋案例的最终效果!!! ——首先先让我们了解一下我们需要了解的前置知识: 1.HTML骨架 2.CSS装饰 1. 引入字体和全局样式 2.设置 body 样式 3 设置 .wrapper 样式 4.设置 .current-status 和其中的元素样式  5.设置 board 和 .cell 样式 6.鼠标悬浮时的图片效果 7.设置 game-end-overlay 样式 8 设置 .winning-message 样式 9.

AI Skills:前端新的效率神器

AI Skills:前端新的效率神器

近来,AI 领域有个火爆的话题:Skills。 Github 上被疯狂 star 的仓库,很多都是和 skills 有关的。 有的仓库仅仅上线三个月就获得了快 50K 的 star,Skills 的火热可见一斑。 不管是大模型,还是 Cursor、Codex、Claude、Trae、Copilot 等编程 IDE 都在争先支持 Skills。 围绕 Skills,它们在做的就是为了完成一件事情:技能是通过学习和反复练习获得的,而 Skills 是把经验和最佳实践沉淀为 AI 能力,将“知道”转化为“做到”的本领。 详解什么是 Skills 要说清楚什么是 Skills,先来了解一下关于 AI 的 2

前端监控:别等用户告诉你应用崩了

前端监控:别等用户告诉你应用崩了 毒舌时刻 这代码写得跟网红滤镜似的——仅供参考。 各位前端同行,咱们今天聊聊前端监控。别告诉我你还在等用户截图告诉你应用崩了,那感觉就像等邻居来告诉你你家着火了——能知道,但已经晚了。 为什么你需要前端监控 最近看到一个项目,生产环境崩溃了 3 小时,开发团队却一无所知。我就想问:你是在做应用还是在做猜谜游戏? 反面教材 // 反面教材:没有监控 // components/Checkout.jsx export default function Checkout() { const [loading, setLoading] = useState(false); const handleSubmit = async () => { setLoading(true); try { await api.checkout(); // 成功处理 } catch (error) { // 只在控制台打印错误 console.error(

前端SSG:静态站点生成的艺术

前端SSG:静态站点生成的艺术 毒舌时刻 前端SSG?这不是给博客用的吗? "我的应用需要动态内容,SSG不适合"——结果首屏加载慢,SEO差, "SSG就是静态HTML,太简单了"——结果构建时间长,数据更新困难, "我用SSR就够了"——结果服务器压力大,响应慢。 醒醒吧,SSG不是简单的静态HTML,而是一种现代化的前端架构! 为什么你需要这个? * 性能优异:静态文件加载快,无需服务器渲染 * SEO友好:所有内容都是静态的,搜索引擎容易收录 * 部署简单:可以部署到任何静态文件服务器 * 安全性高:没有服务器端代码,减少攻击面 反面教材 // 反面教材:纯静态HTML <!DOCTYPE html> <html> <head>