模型:Qwen3-14B-Claude-4.5-Opus-High-Reasoning-Distill-GGUF
显存:21~25GB max-model-len: 40960 并发:4
部署服务器:DGX-Spark-GB10 120GB 生成速率:13 tokens/s
部署 GGUF 格式的模型有 3 种方法
| 对比项 | Ollama | llama.cpp | LM Studio/OpenWebUI |
|---|---|---|---|
| 上手难度 | ⭐ 最简单 | ⭐⭐⭐ 需编译 | ⭐ 图形界面 |
| 推理性能 | 🔶 中等 | 🥇 最强 | 🔶 中等 |
| GPU 控制 | 有限 | 完全可控 | 有限 |
| API 服务 | 开箱即用 | 需手动启动 | 内置 |
| 适合场景 | 快速部署/生产 | 性能调优/研究 | 本地体验 |
第 1 种:使用 Ollama
前提:已经安装了 ollama
第一步:Huggingface 或 ModelScope 下载模型
git clone https://huggingface.co/TeichAI/Qwen3-14B-Claude-4.5-Opus-High-Reasoning-Distill-GGUF/tree/main
第二步:修改 Modelfile,使用 Qwen3-14B-Claude-4.5-Opus-Distill.q8_0.gguf 模型
FROM ./Qwen3-14B-Claude-4.5-Opus-Distill.q8_0.gguf TEMPLATE """{{ if .System }}<|im_start|>system {{ .System }}<|im_end|> {{ end }}{{ if .Prompt }}<|im_start|>user {{ .Prompt }}<|im_end|> {{ end }}<|im_start|>assistant {{ .Response }}<|im_end|>""" PARAMETER temperature 0.6 PARAMETER top_p 0.95 PARAMETER repeat_penalty 1.0
第三步:创建 ollama 实例
ollama create qwen3-claude-distill -f Modelfile
第四步:测试
注意:模型的思考模板有些问题,需要修改。
Ollama API 访问默认端口是 11434,直接用 curl 请求:
curl http://localhost:11434/api/chat \
-H "Content-Type: application/json" \
-d '{ "model": "qwen3-claude-distill", "messages": [ {"role": "user", "content": "你好,介绍一下你自己"} ], "stream": false }'
第 2 种:llama.cpp
第一步:下载 llama.cpp
git clone https://github.com/ggerganov/llama.cpp
第二步:GPU 构建

