跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
C++AI算法

使用 llama.cpp 部署 Qwen3-14B Reasoning Distill GGUF 模型

综述由AI生成介绍使用 llama.cpp 部署 Qwen3-14B Reasoning Distill GGUF 模型的方法。对比了 Ollama 与 llama.cpp 的差异,详细说明了 llama.cpp 的编译、配置及后台运行步骤。涵盖显存需求、上下文长度设置、推理模式开启与关闭以及工具调用测试。最后提供了服务停止与管理建议。

邪神洛基发布于 2026/4/5更新于 2026/5/2328 浏览

模型:Qwen3-14B-Claude-4.5-Opus-High-Reasoning-Distill-GGUF

显存:21~25GB max-model-len: 40960 并发:4

部署服务器:DGX-Spark-GB10 120GB 生成速率:13 tokens/s

部署 GGUF 格式的模型有 3 种方法

对比项Ollamallama.cppLM Studio/OpenWebUI
上手难度⭐ 最简单⭐⭐⭐ 需编译⭐ 图形界面
推理性能🔶 中等🥇 最强🔶 中等
GPU 控制有限完全可控有限
API 服务开箱即用需手动启动内置
适合场景快速部署/生产性能调优/研究本地体验

第 1 种:使用 Ollama

前提:已经安装了 ollama

第一步:Huggingface 或 ModelScope 下载模型

git clone https://huggingface.co/TeichAI/Qwen3-14B-Claude-4.5-Opus-High-Reasoning-Distill-GGUF/tree/main

第二步:修改 Modelfile,使用 Qwen3-14B-Claude-4.5-Opus-Distill.q8_0.gguf 模型

FROM ./Qwen3-14B-Claude-4.5-Opus-Distill.q8_0.gguf TEMPLATE """{{ if .System }}<|im_start|>system {{ .System }}<|im_end|> {{ end }}{{ if .Prompt }}<|im_start|>user {{ .Prompt }}<|im_end|> {{ end }}<|im_start|>assistant {{ .Response }}<|im_end|>""" PARAMETER temperature 0.6 PARAMETER top_p 0.95 PARAMETER repeat_penalty 1.0 

第三步:创建 ollama 实例

ollama create qwen3-claude-distill -f Modelfile

第四步:测试

注意:模型的思考模板有些问题,需要修改。

Ollama API 访问默认端口是 11434,直接用 curl 请求:

curl http://localhost:11434/api/chat \
  -H "Content-Type: application/json" \
  -d '{ "model": "qwen3-claude-distill", "messages": [ {"role": "user", "content": "你好,介绍一下你自己"} ], "stream": false }'

第 2 种:llama.cpp

第一步:下载 llama.cpp

git clone https://github.com/ggerganov/llama.cpp

第二步:GPU 构建

cd ./llama.cpp
cmake -B build \
  -DGGML_CUDA=ON \
  -DLLAMA_BUILD_SERVER=ON \
  -DCMAKE_BUILD_TYPE=Release
cmake --build build --config Release -j 8
# 结果将存于 ./build/bin/
rm -rf build # 构建失败可直接删除 build 目录即可
# 参数说明:
# -DLLAMA_BUILD_SERVER=ON 强制构建 llama-server
# -DGGML_CUDA=ON 启用 GPU
# Release 性能更好
./build/bin/llama-server --help # 验证安装成功

第三步:部署模型 (使用下载好的 gguf 模型)

简化命令:

./build/bin/llama-server \
  -m /home/admin/models/huggingface/Qwen3-14B-Claude-4.5-Opus-High-Reasoning-Distill-GGUF/Qwen3-14B-Claude-4.5-Opus-Distill.q8_0.gguf \
  -ngl 999 \
  -c 40960 \
  --host 0.0.0.0 \
  --port 8908

后台运行部署:

nohup ./build/bin/llama-server \
  -m /home/admin/models/huggingface/Qwen3-14B-Claude-4.5-Opus-High-Reasoning-Distill-GGUF/Qwen3-14B-Claude-4.5-Opus-Distill.q8_0.gguf \
  -ngl 999 \
  --batch-size 1024 \
  --threads 16 \
  --parallel 4 \
  --jinja \
  --reasoning-format deepseek \
  --reasoning-budget -1 \
  -c 40960 \
  --host 0.0.0.0 \
  --port 8908 \
  >> /home/admin/models/logs/llama_Qwen3-14B_Distill.log 2>&1 &
tail -f ~/models/logs/llama_Qwen3-14B_Distill.log # 查看日志

参数说明:

--n-gpu-layers:指定有多少 transformer 层放到 GPU 上执行
0 全部 CPU
20 前 20 层 GPU
999 尽可能全部 GPU
-c 40960:即--ctx-size,上下文长度(最大 token 数)
--host 0.0.0.0:是否可远程访问,使用此参数可以局域网访问
-port 8908:HTTP 监听端口
--threads 16: CPU 线程数量,但你只有 16 核,线程抢占反而性能下降
--batch-size 1024: GPU 每一步最多算多少 token
--parallel 4: 允许同时处理多少个请求(并发会话数)
--reasoning-format deepseek:思考模板
--reasoning-budget N:思考模式控制
值 含义
-1 不限制思考(默认,开启)
0 禁用思考模式
>0 限制思考 token 数量(部分模型支持)

重要提醒(关于 40K)

Qwen3-14B q8_0:

  • 模型权重 ≈ 15~16GB
  • 40K KV cache 可能占 10GB+
  • 总显存可能 > 28GB 如果你 GPU 只有 24GB,会爆显存。
第四步:测试

对话端点

http://localhost:8908/v1/chat/completions
http://服务器 IP:8908/v1/chat/completions

默认开启思考模式

curl http://192.168.0.254:8908/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{ "model": "Qwen3-14B", "messages": [ {"role": "system", "content": "You are a helpful assistant."}, {"role": "user", "content": "介绍一下新加坡"} ], "temperature": 0.7, "max_tokens": 500 }'

关闭思考模式

curl http://192.168.0.254:8908/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{ "model": "Qwen3-14B", "messages": [ {"role": "system", "content": "你是一个只回答用户问题的助手"}, {"role": "user", "content": "你好"} ], "temperature": 0.7, "max_tokens": 200, "chat_template_kwargs": { "enable_thinking": false } }'

工具的调用

curl http://192.168.0.254:8908/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{ "model": "Qwen3-14B", "messages": [ { "role": "system", "content": "你是一个只回答用户问题的助手" }, { "role": "user", "content": "新加坡现在几点?" } ], "temperature": 0.7, "max_tokens": 200, "tools": [ { "type": "function", "function": { "name": "get_current_time", "description": "获取指定城市的当前时间", "parameters": { "type": "object", "properties": { "city": { "type": "string", "description": "城市名称" } }, "required": ["city"] } } } ], "tool_choice": "auto", "chat_template_kwargs": { "enable_thinking": false } }'

🔥 nohup 服务停止

假设你这样启动:

nohup ./build/bin/llama-server ... > llama.log 2>&1 &
✅ 方法 1(推荐)
ps aux | grep llama-server # 显示 PID
kill -9 12345 # 杀掉进程
✅ 方法 2(最快)
pkill llama-server # 会杀掉所有 llama-server 进程
✅ 方法 3(精确杀端口)

如果你知道端口是 8908:

lsof -i:8908
kill 进程号
🏆 推荐做法(生产环境)使用:systemctl

管理服务,而不是 nohup

nohupsystemd
手动管理自动重启
无状态管理可开机启动
无健康检测有状态监控

目录

  1. 第 1 种:使用 Ollama
  2. 第 2 种:llama.cpp
  3. 结果将存于 ./build/bin/
  4. 参数说明:
  5. -DLLAMABUILDSERVER=ON 强制构建 llama-server
  6. -DGGML_CUDA=ON 启用 GPU
  7. Release 性能更好
  8. 第四步:测试
  9. 🔥 nohup 服务停止
  10. ✅ 方法 1(推荐)
  11. ✅ 方法 2(最快)
  12. ✅ 方法 3(精确杀端口)
  13. 🏆 推荐做法(生产环境)使用:systemctl
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • 竞争自适应重加权采样(CARS)算法在光谱数据变量选择中的应用
  • UniApp + Dify 实战:详解 SSE 流式响应解析与前端渲染
  • 大语言模型参数高效微调(PEFT)方法综述
  • 基于 Qwen2.5 与 LLaMA-Factory 的 LoRA 微调实战
  • 《大语言模型综述》:全面解析大语言模型技术体系与前沿进展
  • C++ 二叉搜索树原理与增删查实现详解
  • DuckX:C++操作 Word 文档的完整指南
  • 基于 SpringBoot 和 EMQX 的物联网设备双向通讯方案
  • 数据结构与算法:复杂链表的复制与插入排序
  • OpenClaw 配置本地 Ollama 模型实现离线 AI 助理
  • Cursor 2.2 更新:可视化编辑器与 Debug Mode 深度解析
  • Android 订餐系统开发:Java Web 后台与 MySQL 数据库设计
  • 基于 Java Geotools 编程式创建 SLD 文件并保存至磁盘
  • 降低 AIGC 总体疑似度的实用技巧与工具方案
  • Seedream 4.0 深度测评:AI 图像生成与编辑一体化方案
  • Kafka-UI 开源管理平台部署与使用指南
  • Python RPA 的三大实现方式
  • HTML + CSS + JavaScript 进阶:性能优化、代码质量与工程化
  • 小米智能家居 Miloco 分离式部署指南
  • Python 百度搜索 API 快速入门与集成使用

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • Base64 字符串编码/解码

    将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online