模型:Qwen3-14B-Claude-4.5-Opus-High-Reasoning-Distill-GGUF
"model": "Qwen3-14B"
显存:21~25GB
max-model-len:40960
并发:4
部署服务器:DGX-Spark-GB10 120GB
生成速率:13 tokens/s
部署GGUF 格式的模型有 3 种方法
| 对比项 | Ollama | llama.cpp | LM Studio/OpenWebUI |
|---|---|---|---|
| 上手难度 | ⭐ 最简单 | ⭐⭐⭐ 需编译 | ⭐ 图形界面 |
| 推理性能 | 🔶 中等 | 🥇 最强 | 🔶 中等 |
| GPU 控制 | 有限 | 完全可控 | 有限 |
| API 服务 | 开箱即用 | 需手动启动 | 内置 |
| 适合场景 | 快速部署/生产 | 性能调优/研究 | 本地体验 |
第 1 种:使用Ollama
前提:已经安装了 ollama
第一步:Huggingface 下载模型
https://huggingface.co/TeichAI/Qwen3-14B-Claude-4.5-Opus-High-Reasoning-Distill-GGUF/tree/main
第二步:修改 Modelfile:使用 Qwen3-14B-Claude-4.5-Opus-Distill.q8_0.gguf 模型
FROM ./Qwen3-14B-Claude-4.5-Opus-Distill.q8_0.gguf TEMPLATE """{{ if .System }}<|im_start|>system {{ .System }}<|im_end|> {{ end }}{{ if .Prompt }}<|im_start|>user {{ .Prompt }}<|im_end|> {{ end }}<|im_start|>assistant {{ .Response }}<|im_end|>""" PARAMETER temperature 0.6 PARAMETER top_p 0.95 PARAMETER repeat_penalty 1.0
第三步:创建 ollama 实例
ollama create qwen3-claude-distill -f Modelfile
第四步:测试
- 注意:模型的思考模板有些问题'\u003cthink\u003e\n',需要修改
# Ollama API 访问
# 默认端口是 11434
curl http://localhost:11434/api/chat \
-H "Content-Type: application/json" \
-d '{ "model": "qwen3-claude-distill", "messages": [ {"role": "user", "content": "你好,介绍一下你自己"} ], "stream": false }'
响应示例包含 reasoning_content 字段。

