跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
PythonAI算法

DCU BW1000 环境下 llama.cpp 推理 Qwen3-Coder 模型问题排查

综述由AI生成记录了在 DCU BW1000 计算卡上尝试使用 llama.cpp 和 Transformers 框架推理 Qwen3-Coder-30B 模型的过程。主要遇到以下问题:编译 llama.cpp 时缺少共享库依赖;模型下载路径与加载路径不一致;Transformers 加载 AWQ 量化模型时报错,提示需要安装 gptqmodel,但该包在当前环境中无法通过 pip 或 conda 安装。最终因环境依赖冲突及模型适配问题,推理未能成功,相关调试记录供参考。

moshang发布于 2026/4/6更新于 2026/5/2725 浏览

在 DCU BW1000 计算卡上尝试使用 llama.cpp 和 Transformers 框架推理 Qwen3-Coder-30B 模型,记录遇到的问题及排查过程。

模型信息分析

使用 llmfit 查看模型情况:

llmfit info stelterlab/Qwen3-Coder-30B-A3B-Instruct-AWQ

输出摘要:

  • Provider: stelterlab
  • Parameters: 4.6B (MoE)
  • Quantization: Q4_K_M / Q8_0
  • Context Length: 262144 tokens
  • Runtime: llama.cpp (est. ~17.2 tok/s)
  • Fit Analysis: CPU+GPU, Memory Utilization 0.6%

安装 llama.cpp

克隆源码并编译:

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp cmake -B build cmake --build build --config Release

添加环境变量:

export PATH=/root/llama.cpp/build/bin:$PATH

若直接运行报错 libmtmd.so.0 或 libggml-base.so.0 缺失,需确认路径是否正确加入。修正后问题解决。

模型下载

安装 modelscope 库:

pip install modelscope

下载模型:

from modelscope import snapshot_download
snapshot_download('tclf90/Qwen3-Coder-30B-A3B-Instruct-AWQ', cache_dir="models")

推理测试

1. 使用 llama-cli
llama-cli -m models/tclf90/Qwen3-Coder-30B-A3B-Instruct-AWQ

报错:

Loading model... |gguf_init_from_file_impl: failed to read magic
llama_model_load: error loading model: ... failed to load model from models/tclf90/Qwen3-Coder-30B-A3B-Instruct-AWQ
Failed to load the model

经检查,目标模型应为 stelterlab/Qwen3-Coder-30B-A3B-Instruct-AWQ,但公共仓库中未找到该版本,导致路径不匹配。

2. 使用 transformers
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "/root/models/tclf90/Qwen3-Coder-30B-A3B-Instruct-AWQ"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name, torch_dtype="auto", device_map="auto"
)
prompt = "Write a quick sort algorithm."
messages = [{"role": "user", "content": prompt}]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(**model_inputs, max_new_tokens=65536)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist()
content = tokenizer.decode(output_ids, skip_special_tokens=True)
print("content:", content)

执行亦失败,报错如下:

ImportError: Loading an AWQ quantized model requires gptqmodel. Please install it with `pip install gptqmodel`

依赖调试

尝试安装 gptqmodel:

pip install gptqmodel

报错:

Exception: Unable to detect torch version via uv/pip/conda/importlib...
ERROR: Failed to build 'gptqmodel' when getting requirements to build wheel

尝试 conda 安装:

conda install gptqmodel

报错:

PackagesNotFoundError: The following packages are not available from current channels:
 - gptqmodel

总结

当前环境配置未解决,暂时搁置。

  1. llama.cpp 因模型仓库路径不匹配无法加载。
  2. Transformers 因 AWQ 量化依赖库 gptqmodel 在当前环境中无法安装(torch 版本或通道限制),导致推理失败。

目录

  1. 模型信息分析
  2. 安装 llama.cpp
  3. 模型下载
  4. 推理测试
  5. 1. 使用 llama-cli
  6. 2. 使用 transformers
  7. 依赖调试
  8. 总结
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • Ubuntu 24.04 安装 NVIDIA Container Toolkit 全指南
  • STL 源码剖析:深入理解 list 容器实现机制
  • 低代码治理实践:构建 Power Platform 中心化管控体系
  • 大模型 Agent 实战案例分析与入门指南
  • C++ 多态底层实现原理:虚函数表与对象模型解析
  • 医疗 AI 场景下的逻辑回归算法原理与应用实战
  • 基于 AR 眼镜的春节亲戚称呼助手实现
  • AI 原生架构:鸿蒙 App 的下一代形态
  • Python 行业现状与职业发展前景深度解析
  • AI 编程中的 Skills:概念、用法与 Java 实战示例
  • 基于C++的DPU医疗数据处理初探
  • 基于腾讯云 HAI 与 DeepSeek 快速搭建个人网页
  • DeepSeek-R1 大模型基于 MS-Swift 框架的部署、推理与微调实践
  • OpenCV 形态学操作与乐谱线条提取
  • OpenClaw 安装配置与多平台接入实战
  • 25 个实用 Prompt:如何有效降低内容 AI 检测率
  • 一卡通核心交易系统国产数据库实践:架构、迁移与高可用
  • C++ 图论实战:三种经典最短路径算法解析
  • Maven 核心机制:深入理解本地仓库
  • VS Code 远程连接服务器后 GitHub Copilot 无法使用解决方案

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • curl 转代码

    解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online