DCU BW1000 环境部署 llama.cpp 推理 Qwen3-Coder 模型实战复盘

DCU BW1000 环境下尝试使用 llama.cpp 和 Transformers 推理 Qwen3-Coder-30B 模型的实践记录。通过 llmfit 分析模型资源需求后，完成了 llama.cpp 的编译与环境配置。但在实际推理阶段，llama-cli 因模型文件路径或格式问题加载失败；Transformers 则因缺少 gptqmodel 依赖导致 AWQ 量化模型无法加载。尽管尝试安装相关库，但受限于环境版本兼容性，最终未能成功运行。主要障碍在于硬件驱动支持与量化模型依赖链的匹配问题。

Pythonist发布于 2026/3/210 浏览

DCU BW1000 环境部署 llama.cpp 推理 Qwen3-Coder 模型实战复盘

最近在 DCU BW1000 计算卡上尝试运行大模型，发现官方镜像资源有限，配置过程踩了不少坑。本文记录在 DCU 环境下使用 llama.cpp 和 Transformers 推理 Qwen3-Coder-30B 模型的完整排查过程。

一、模型资源分析

首先通过 llmfit 工具评估目标模型 stelterlab/Qwen3-Coder-30B-A3B-Instruct-AWQ 的资源需求：

=== stelterlab/Qwen3-Coder-30B-A3B-Instruct-AWQ ===
Provider: stelterlab
Parameters: 4.6B (Active)
Quantization: Q4_K_M
Best Quant: Q8_0
Context Length: 262144 tokens
Runtime: llama.cpp (est. ~17.2 tok/s)
Fit Analysis:
  Status: Good
  Run Mode: CPU+GPU
  Memory Utilization: 0.6% (2.6 / 405.5 GB)
Notes:
  MoE: insufficient VRAM for expert offloading
  Spilling entire model to system RAM

从分析看，显存不足以完全卸载专家模块，模型会溢出到系统内存，性能会有所下降。建议量化版本为 Q8_0。

二、编译与安装 llama.cpp

1. 源码获取与编译

推荐使用官方仓库进行构建，确保兼容性：

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp cmake -B build cmake --build build --config Release

2. 环境变量配置

编译完成后，需将二进制路径加入环境变量，否则执行命令时会报找不到库的错误：

export PATH=/root/llama.cpp/build/bin:$PATH

若遇到 libmtmd.so.0 或 libggml-base.so.0 加载失败，通常是因为未正确设置 PATH。确认路径后问题即可解决。

三、模型下载

使用 ModelScope 同步模型文件：

from modelscope import snapshot_download
snapshot_download('tclf90/Qwen3-Coder-30B-A3B-Instruct-AWQ', cache_dir="models")

注意检查本地模型目录结构是否完整，确保 GGUF 格式文件存在。

四、推理尝试与报错分析

1. llama-cli 推理失败

直接调用命令行工具时出现加载错误：

llama-cli -m models/tclf90/Qwen3-Coder-30B-A3B-Instruct-AWQ

报错信息提示 failed to read magic 和 failed to load model。这通常意味着模型文件路径指向了目录而非具体文件，或者文件格式不匹配。由于魔搭社区该特定模型链接缺失，导致实际加载的文件可能不完整。

2. Transformers 推理失败

尝试使用 Python 接口加载 AWQ 量化模型：

DCU BW1000 环境部署 llama.cpp 推理 Qwen3-Coder 模型实战复盘