跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
C++AI算法

基于 llama.cpp 部署 Qwen3-14B-Claude-4.5-Opus-High-Reasoning-Distill-GGUF 模型

综述由AI生成介绍使用 llama.cpp 和 Ollama 部署 Qwen3-14B-Claude-4.5-Opus-High-Reasoning-Distill-GGUF 模型的方法。对比了两种工具的优缺点,详细说明了 llama.cpp 的 GPU 编译步骤、参数配置及后台运行方式。重点讲解了上下文长度对显存的影响、思考模式控制及工具调用测试,并提供了服务停止与 systemd 管理建议。适用于需要高性能推理和本地化部署的场景。

moshang发布于 2026/4/5更新于 2026/5/2428 浏览

llama.cpp 部署 Qwen3-14B-Claude-4.5-Opus-High-Reasoning-Distill-GGUF

模型:Qwen3-14B-Claude-4.5-Opus-High-Reasoning-Distill-GGUF

显存:21~25GB

max-model-len:40960

并发:4

部署服务器:DGX-Spark-GB10 120GB

生成速率:13 tokens/s(性能瓶颈分析见相关技术文档)

GGUF 格式模型部署方法对比

对比项Ollamallama.cppLM Studio/OpenWebUI
上手难度⭐ 最简单⭐⭐⭐ 需编译⭐ 图形界面
推理性能🔶 中等🥇 最强🔶 中等
GPU 控制有限完全可控有限
API 服务开箱即用需手动启动内置
适合场景快速部署/生产性能调优/研究本地体验

第 1 种:使用 Ollama

前提:已经安装了 ollama。

第一步:下载模型

从 HuggingFace 或 ModelScope 下载模型文件。

第二步:修改 Modelfile

使用 Qwen3-14B-Claude-4.5-Opus-Distill.q8_0.gguf 模型,配置如下:

FROM ./Qwen3-14B-Claude-4.5-Opus-Distill.q8_0.gguf
TEMPLATE """{{ if .System }}<|im_start|>system {{ .System }}<|im_end|> {{ end }}{{ if .Prompt }}<|im_start|>user {{ .Prompt }}<|im_end|> {{ end }}<|im_start|>assistant {{ .Response }}<|im_end|>"""
PARAMETER temperature 0.6
PARAMETER top_p 0.95
PARAMETER repeat_penalty 1.0
第三步:创建 ollama 实例
ollama create qwen3-claude-distill -f Modelfile
第四步:测试

注意:模型的思考模板可能存在转义问题(如 \u003cthink\u003e),需根据实际响应调整。

Ollama API 默认端口是 11434,访问示例:

curl http://localhost:11434/api/chat \
  -H "Content-Type: application/json" \
  -d '{ "model": "qwen3-claude-distill", "messages": [ {"role": "user", "content": "你好,介绍一下你自己"} ], "stream": false }'

第 2 种:llama.cpp

第一步:下载 llama.cpp
git clone https://github.com/ggerganov/llama.cpp
第二步:GPU 构建
cd ./llama.cpp
cmake -B build \
  -DGGML_CUDA=ON \
  -DLLAMA_BUILD_SERVER=ON \
  -DCMAKE_BUILD_TYPE=Release
cmake --build build --config Release -j 8

参数说明:

  • -DLLAMA_BUILD_SERVER=ON:强制构建 llama-server
  • -DGGML_CUDA=ON:启用 GPU
  • -j 8:并行编译任务数

验证安装:

./build/bin/llama-server --help
第三步:部署模型

使用下载的 gguf 模型文件。

简化命令:

./build/bin/llama-server \
  -m /home/admin/models/huggingface/Qwen3-14B-Claude-4.5-Opus-High-Reasoning-Distill-GGUF/Qwen3-14B-Claude-4.5-Opus-Distill.q8_0.gguf \
  -ngl 999 \
  -c 40960 \
  --host 0.0.0.0 \
  --port 8908

后台运行部署:

nohup ./build/bin/llama-server \
  -m /home/admin/models/huggingface/Qwen3-14B-Claude-4.5-Opus-High-Reasoning-Distill-GGUF/Qwen3-14B-Claude-4.5-Opus-Distill.q8_0.gguf \
  -ngl 999 \
  --batch-size 1024 \
  --threads 16 \
  --parallel 4 \
  --jinja \
  --reasoning-format deepseek \
  --reasoning-budget -1 \
  -c 40960 \
  --host 0.0.0.0 \
  --port 8908 \
  >> /home/admin/models/logs/llama_Qwen3-14B_Distill.log 2>&1 &

# 查看日志
tail -f ~/models/logs/llama_Qwen3-14B_Distill.log

参数说明:

  • --n-gpu-layers:指定 GPU 层数(0 全 CPU,999 尽可能全 GPU)
  • -c:上下文长度(最大 token 数)
  • --host 0.0.0.0:允许局域网访问
  • --port:HTTP 监听端口
  • --threads:CPU 线程数量
  • --batch-size:GPU 每一步最多计算 token 数
  • --parallel:允许同时处理的请求数(并发会话数)
  • --reasoning-format:思考模板格式
  • --reasoning-budget:思考模式控制(-1 不限制,0 禁用,>0 限制 token 数)

重要提醒(关于 40K 上下文): Qwen3-14B q8_0 模型权重约 15~16GB,40K KV cache 可能占 10GB+,总显存可能超过 28GB。若 GPU 只有 24GB,会爆显存。

第四步:测试

对话端点:http://localhost:8908/v1/chat/completions 或 http://<服务器 IP>:8908/v1/chat/completions

默认开启思考模式:

curl http://192.168.0.254:8908/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{ "model": "Qwen3-14B", "messages": [ {"role": "system", "content": "You are a helpful assistant."}, {"role": "user", "content": "介绍一下新加坡"} ], "temperature": 0.7, "max_tokens": 500 }'

关闭思考模式:

curl http://192.168.0.254:8908/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{ "model": "Qwen3-14B", "messages": [ {"role": "system", "content": "你是一个只回答用户问题的助手"}, {"role": "user", "content": "你好"} ], "temperature": 0.7, "max_tokens": 200, "chat_template_kwargs": { "enable_thinking": false } }'

工具调用测试:

curl http://192.168.0.254:8908/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{ "model": "Qwen3-14B", "messages": [ {"role": "system", "content": "你是一个只回答用户问题的助手"}, {"role": "user", "content": "新加坡现在几点?"} ], "temperature": 0.7, "max_tokens": 200, "tools": [ {"type": "function", "function": {"name": "get_current_time", "description": "获取指定城市的当前时间", "parameters": {"type": "object", "properties": {"city": {"type": "string", "description": "城市名称"}}, "required": ["city"]}}}], "tool_choice": "auto", "chat_template_kwargs": { "enable_thinking": false } }'

停止 nohup 服务

假设启动命令为:nohup ./build/bin/llama-server ... > llama.log 2>&1 &

✅ 方法 1(推荐)
  1. 查看进程:ps aux | grep llama-server(找到 PID)
  2. 杀掉进程:kill -9 <PID>
✅ 方法 2(最快)
pkill llama-server

⚠️ 会杀掉所有 llama-server 进程。

✅ 方法 3(精确杀端口)

如果知道端口是 8908:

lsof -i:8908
kill <进程号>
🏆 推荐做法(生产环境)

使用 systemd 管理服务,而不是 nohup。

nohupsystemd
手动管理自动重启
无状态管理可开机启动
无健康检测有状态监控

目录

  1. llama.cpp 部署 Qwen3-14B-Claude-4.5-Opus-High-Reasoning-Distill-GGUF
  2. GGUF 格式模型部署方法对比
  3. 第 1 种:使用 Ollama
  4. 第一步:下载模型
  5. 第二步:修改 Modelfile
  6. 第三步:创建 ollama 实例
  7. 第四步:测试
  8. 第 2 种:llama.cpp
  9. 第一步:下载 llama.cpp
  10. 第二步:GPU 构建
  11. 第三步:部署模型
  12. 查看日志
  13. 第四步:测试
  14. 停止 nohup 服务
  15. ✅ 方法 1(推荐)
  16. ✅ 方法 2(最快)
  17. ✅ 方法 3(精确杀端口)
  18. 🏆 推荐做法(生产环境)
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • Python 与前端集成:构建全栈应用
  • 千笔 AI 论文写作工具核心功能解析
  • SHA-256 哈希验证工具解析与实现
  • MaaS 平台与阿里 QWQ 技术:AI 调参实战指南
  • GeoServer 2.27.3 结合 GeoWebCache 发布 ArcGIS 切片(WMTS 服务)
  • 前端网页开发基础:HTML、CSS 与 JavaScript 入门教程
  • OpenClaw 实战指南:本地化 AI Agent 部署与优化
  • WebSphere 反序列化漏洞 CVE-2015-7450 原理与利用分析
  • 前端安全最佳实践:密码、XSS 与 CSRF 防护
  • 前端开发基础:HTML、CSS 与 JavaScript 入门
  • Z-Image-Turbo 镜像快速搭建与 AI 绘画教学指南
  • Python 与 Go 语言深度对比:特性、性能与应用场景分析
  • 无需插件修改 Copilot 接入第三方 OpenAI 接口方法
  • Chatwoot 私有化部署与网页集成实操
  • React 集成 Microi 吾码低代码平台开发指南
  • Coze 智能体与工作流开发基础教程
  • PentAGI Docker 环境部署指南
  • Qwen2.5-7B-Instruct 大模型 vLLM 推理加速与前端调用
  • GitHub Copilot 提示词工程指南:从基础到精通
  • OpenMV 人脸追踪算法工作原理揭秘

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • Base64 字符串编码/解码

    将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online