跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
C++AI算法

基于 llama.cpp 部署 Qwen3-14B 高推理蒸馏 GGUF 模型

综述由AI生成介绍使用 llama.cpp 部署 Qwen3-14B 高推理蒸馏 GGUF 模型的方法。对比了 Ollama、llama.cpp 及 LM Studio 的优劣,重点详述了 llama.cpp 的编译、配置及后台运行步骤。涵盖显存需求分析、上下文长度设置、GPU 层数分配、API 调用测试(含思考模式开关与工具调用)以及服务管理方案。提供了从下载模型到启动服务的完整流程及参数说明。

邪神洛基发布于 2026/4/6更新于 2026/5/2027 浏览

llama.cpp 部署 Qwen3-14B 高推理蒸馏 GGUF 模型

模型: Qwen3-14B-Claude-4.5-Opus-High-Reasoning-Distill-GGUF

显存: 21~25GB

max-model-len: 40960

并发: 4

部署服务器: DGX-Spark-GB10 120GB

生成速率: 13 tokens/s

GGUF 格式模型部署方法对比

对比项Ollamallama.cppLM Studio/OpenWebUI
上手难度最简单需编译图形界面
推理性能中等最强中等
GPU 控制有限完全可控有限
API 服务开箱即用需手动启动内置
适合场景快速部署/生产性能调优/研究本地体验

第 1 种:使用 Ollama

前提:已安装 ollama。

第一步:下载模型

从 Huggingface 或 ModelScope 下载模型。

https://huggingface.co/TeichAI/Qwen3-14B-Claude-4.5-Opus-High-Reasoning-Distill-GGUF/tree/main
第二步:修改 Modelfile

使用 Qwen3-14B-Claude-4.5-Opus-Distill.q8_0.gguf 模型。

FROM ./Qwen3-14B-Claude-4.5-Opus-Distill.q8_0.gguf TEMPLATE """{{ if .System }}<|im_start|>system {{ .System }}<|im_end|> {{ end }}{{ if .Prompt }}<|im_start|>user {{ .Prompt }}<|im_end|> {{ end }}<|im_start|>assistant {{ .Response }}<|im_end|>""" PARAMETER temperature 0.6 PARAMETER top_p 0.95 PARAMETER repeat_penalty 1.0 
第三步:创建实例
ollama create qwen3-claude-distill -f Modelfile
第四步:测试

注意:模型的思考模板可能存在转义问题,需检查。 Ollama API 默认端口是 11434。

curl http://localhost:11434/api/chat \
-H "Content-Type: application/json" \
-d '{ "model": "qwen3-claude-distill", "messages": [ {"role": "user", "content": "你好,介绍一下你自己"} ], "stream": false }'

第 2 种:llama.cpp

第一步:下载 llama.cpp
git clone https://github.com/ggerganov/llama.cpp
第二步:GPU 构建
cd ./llama.cpp
cmake -B build \
  -DGGML_CUDA=ON \
  -DLLAMA_BUILD_SERVER=ON \
  -DCMAKE_BUILD_TYPE=Release
cmake --build build --config Release -j 8
# 参数说明:
# -DLLAMA_BUILD_SERVER=ON 强制构建 llama-server
# -DGGML_CUDA=ON 启用 GPU
# Release 性能更好
# 验证安装成功
./build/bin/llama-server --help
第三步:部署模型

使用下载的 gguf 模型。

# 简化命令
./build/bin/llama-server \
  -m /home/admin/models/huggingface/Qwen3-14B-Claude-4.5-Opus-High-Reasoning-Distill-GGUF/Qwen3-14B-Claude-4.5-Opus-Distill.q8_0.gguf \
  -ngl 999 \
  -c 40960 \
  --host 0.0.0.0 \
  --port 8908

后台运行部署

nohup ./build/bin/llama-server \
  -m /home/admin/models/huggingface/Qwen3-14B-Claude-4.5-Opus-High-Reasoning-Distill-GGUF/Qwen3-14B-Claude-4.5-Opus-Distill.q8_0.gguf \
  -ngl 999 \
  --batch-size 1024 \
  --threads 16 \
  --parallel 4 \
  --jinja \
  --reasoning-format deepseek \
  --reasoning-budget -1 \
  -c 40960 \
  --host 0.0.0.0 \
  --port 8908 \
  >> /home/admin/models/logs/llama_Qwen3-14B_Distill.log 2>&1 &
# 查看日志
tail -f ~/models/logs/llama_Qwen3-14B_Distill.log

参数说明:

  • --n-gpu-layers: 指定有多少 transformer 层放到 GPU 上执行 (0 全部 CPU, 999 尽可能全部 GPU)
  • -c 40960: 即 --ctx-size,上下文长度(最大 token 数)
  • --host 0.0.0.0: 是否可远程访问
  • --port 8908: HTTP 监听端口
  • --threads 16: CPU 线程数量
  • --batch-size 1024: GPU 每一步最多算多少 token
  • --parallel 4: 允许同时处理多少个请求(并发会话数)
  • --reasoning-format deepseek: 思考模板
  • --reasoning-budget N: 思考模式控制 (-1 不限制思考,0 禁用,>0 限制 token 数量)

重要提醒(关于 40K) Qwen3-14B q8_0:

  • 模型权重 ≈ 15~16GB
  • 40K KV cache 可能占 10GB+
  • 总显存可能 > 28GB 如果 GPU 只有 24GB,会爆显存。
第四步:测试

对话端点:http://localhost:8908/v1/chat/completions 或 http://服务器 IP:8908/v1/chat/completions

默认开启思考模式

curl http://192.168.0.254:8908/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{ "model": "Qwen3-14B", "messages": [ {"role": "system", "content": "You are a helpful assistant."}, {"role": "user", "content": "介绍一下新加坡"} ], "temperature": 0.7, "max_tokens": 500 }'

关闭思考模式

curl http://192.168.0.254:8908/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{ "model": "Qwen3-14B", "messages": [ {"role": "system", "content": "你是一个只回答用户问题的助手"}, {"role": "user", "content": "你好"} ], "temperature": 0.7, "max_tokens": 200, "chat_template_kwargs": { "enable_thinking": false } }'

工具调用

curl http://192.168.0.254:8908/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{ "model": "Qwen3-14B", "messages": [ {"role": "system", "content": "你是一个只回答用户问题的助手"}, {"role": "user", "content": "新加坡现在几点?"} ], "temperature": 0.7, "max_tokens": 200, "tools": [ {"type": "function", "function": {"name": "get_current_time", "description": "获取指定城市的当前时间", "parameters": {"type": "object", "properties": {"city": {"type": "string", "description": "城市名称"}}, "required": ["city"]}}}], "tool_choice": "auto", "chat_template_kwargs": { "enable_thinking": false } }'

停止 nohup 服务

假设你这样启动:nohup ./build/bin/llama-server ... > llama.log 2>&1 &

方法 1(推荐)
  1. 查看进程:ps aux | grep llama-server (显示 PID)
  2. 杀掉进程:kill -9 12345
方法 2(最快)

pkill llama-server (会杀掉所有 llama-server 进程)

方法 3(精确杀端口)

如果你知道端口是 8908:

lsof -i:8908
kill 进程号
推荐做法(生产环境)

使用 systemd 管理服务,而不是 nohup。

nohupsystemd
手动管理自动重启
无状态管理可开机启动
无健康检测有状态监控

目录

  1. llama.cpp 部署 Qwen3-14B 高推理蒸馏 GGUF 模型
  2. GGUF 格式模型部署方法对比
  3. 第 1 种:使用 Ollama
  4. 第一步:下载模型
  5. 第二步:修改 Modelfile
  6. 第三步:创建实例
  7. 第四步:测试
  8. 第 2 种:llama.cpp
  9. 第一步:下载 llama.cpp
  10. 第二步:GPU 构建
  11. 参数说明:
  12. -DLLAMABUILDSERVER=ON 强制构建 llama-server
  13. -DGGML_CUDA=ON 启用 GPU
  14. Release 性能更好
  15. 验证安装成功
  16. 第三步:部署模型
  17. 简化命令
  18. 查看日志
  19. 第四步:测试
  20. 停止 nohup 服务
  21. 方法 1(推荐)
  22. 方法 2(最快)
  23. 方法 3(精确杀端口)
  24. 推荐做法(生产环境)
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • AR 眼镜光学镜头设计实战与核心技巧解析
  • OpenClaw macOS 环境搭建与安装指南
  • TapNow 影视级 AI 视频平台实测:导演级精准控制与物理一致性
  • MiMo-V2 系列发布:智能体时代基础大模型规格解析
  • OpenClaw macOS 安装配置教程
  • Android 陀螺仪开发:从传感器数据到角度积分实战
  • Qwen2.5-7B 对话机器人微信接入部署指南
  • 基于 Q-Learning 的无人机三维动态避障路径规划研究
  • 期刊论文智能写作:从选题到见刊的全流程加速方案
  • 使用 Web Scraper 插件抓取知乎评论数据实战
  • IT 行业转行指南:零基础如何判断自己是否适合?
  • DeerFlow 2.0 深度解析:字节跳动开源的超级 AI 智能体框架
  • 自动化验证码识别系统构建:图像处理与 OCR 实战
  • Android 插件化技术:动态创建 Activity 模式详解
  • OpenClaw 开发者模式配置:基于 Docker Compose 获取系统权限
  • 优秀网络安全工程师应具备的核心能力
  • 数据结构:栈与队列详解
  • Linux 命令实战:ar 归档工具使用详解
  • Android ApplicationInfo 元数据读取 getString 返回 null 问题排查
  • JetBrains IDEA 授权机制分析与合法使用方案建议

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • Base64 字符串编码/解码

    将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online