玄武 CLI：国产芯片上的本地大模型部署实录

玄武 CLI 面向国产芯片本地大模型部署，重点解决 Ollama 之外的硬件生态碎片化、驱动配置复杂和部署门槛高的问题。它通过 Docker 简化启动流程，命令集与 Ollama 接近，支持 xw serve、xw pull、xw run 等常用操作，并兼容 OpenAI API，方便 LangChain、LlamaIndex 和 IDE 插件迁移。底层支持多种国产推理引擎和自动硬件识别，同时提供离线运行能力，适合对隐私和本地化部署有要求的场景。集群版则补齐了统一纳管、自动化调度和计量计费能力。

CloudNative发布于 2026/6/301 浏览

玄武 CLI：国产芯片上的本地大模型部署实录

背景

这几年 AI Agent 的热度一直没降下来，像 Clawdbot（OpenClaw）这类应用一旦跑起来，token 消耗会很快上去。放在云端 Notebook 里试验还行，真要频繁发帖、评论，账单很容易先顶不住。

所以不少开发者开始把模型挪回本地。Ollama 基本已经成了本地大模型部署的默认选项，但它主要覆盖的是 NVIDIA CUDA 生态和 macOS。换到国产芯片这边，情况就不那么顺手了：架构分散、驱动和环境配置复杂、文档也不总是能对上实际问题。

华为昇腾 CANN、沐曦 MACA、摩尔线程 MUSA 这些生态各有各的路，很多时候不是'装一下就能跑'，而是先花几天把依赖和编译链路理顺。这个成本，往往比模型本身更劝退人。

玄武 CLI 能做什么

清昴智能给出的方案是 玄武 CLI，目标很直接：让国产芯片也能像跑 Ollama 一样，比较省事地起一个本地大模型服务。

上手方式比较轻

它走的是 Docker 部署，前置条件不算多。基础驱动和 Docker 先准备好，服务启动本身不复杂。对于 32B 参数量以内的模型，启动时间可以压到 30 秒内；整个服务最快 1 分钟左右就能起来。

命令习惯接近 Ollama

这一点对迁移最友好。常用命令基本能对应上：

xw serve       # 启动服务
xw pull        # 下载模型
xw run         # 运行模型
xw list        # 查看模型列表
xw ps          # 查看运行状态

如果你已经习惯了 Ollama 的操作方式，切到玄武 CLI 不需要重新记一套心智模型。比如拉一个模型，直接 xw pull qwen3-32b 就够了。

推理引擎不是单一路线

它底层用了自研的 MLGuider 推理引擎，重点是把性能和兼容性尽量拉平。同时也兼容芯片原生框架和社区里常见的推理引擎，比如昇腾原生 MindIE、vLLM 这类方案。这个思路挺务实，毕竟国产芯片生态现在还谈不上完全统一，单押一条路风险太高。

API 兼容性做得比较实用

玄武 CLI 对 OpenAI API 标准是兼容的。现有基于 LangChain、LlamaIndex 或 IDE 插件的应用，大多数情况下只需要换一行 API 地址，业务代码不用重写。这种兼容方式不花哨，但落地时很省时间。

硬件识别和离线能力

它支持华为昇腾全系列、沐曦等多款国产芯片，并且能自动识别硬件，匹配合适的推理引擎。对开发者来说，少掉了不少翻文档和手工编译的活。

另一个比较现实的点是离线运行。所有推理都在本地完成，不依赖云端，模型权重不上云，推理数据也不外传。对数据敏感的企业场景，这通常比'功能多不多'更重要。

集群版

如果不是单机试用，而是智算中心或大企业场景，玄武还有一个 玄武智算平台（集群版）。

它更像是把国产异构算力放进统一管理框架里，解决的是'谁在用、怎么调度、怎么计费'的问题，而不只是单点部署。

统一纳管：把华为、寒武纪、昆仑芯、摩尔线程、沐曦、燧原等多种芯片放到同一套调度体系里
全栈自动化：偏生产级管理，减少人工干预
计量计费：内置 API 管理和计量计费模块，方便做资源分配和商业化运营

资源链接

GitHub: https://github.com/TsingmaoAI/xw-cli

结语

玄武 CLI 解决的不是'模型有多强'，而是'国产芯片能不能更快用起来'这个更实际的问题。它把部署门槛压低了，也把国产算力接进了现在这套本地大模型工作流里。对开发者来说，省下来的往往不是一点点配置时间，而是整个试错周期。

玄武 CLI：国产芯片上的本地大模型部署实录