玄武 CLI:国产芯片上的本地大模型部署实录
背景
这几年 AI Agent 的热度一直没降下来,像 Clawdbot(OpenClaw)这类应用一旦跑起来,token 消耗会很快上去。放在云端 Notebook 里试验还行,真要频繁发帖、评论,账单很容易先顶不住。
所以不少开发者开始把模型挪回本地。Ollama 基本已经成了本地大模型部署的默认选项,但它主要覆盖的是 NVIDIA CUDA 生态和 macOS。换到国产芯片这边,情况就不那么顺手了:架构分散、驱动和环境配置复杂、文档也不总是能对上实际问题。
华为昇腾 CANN、沐曦 MACA、摩尔线程 MUSA 这些生态各有各的路,很多时候不是'装一下就能跑',而是先花几天把依赖和编译链路理顺。这个成本,往往比模型本身更劝退人。
玄武 CLI 能做什么
清昴智能给出的方案是 玄武 CLI,目标很直接:让国产芯片也能像跑 Ollama 一样,比较省事地起一个本地大模型服务。
上手方式比较轻
它走的是 Docker 部署,前置条件不算多。基础驱动和 Docker 先准备好,服务启动本身不复杂。对于 32B 参数量以内的模型,启动时间可以压到 30 秒内;整个服务最快 1 分钟左右就能起来。
命令习惯接近 Ollama
这一点对迁移最友好。常用命令基本能对应上:
xw serve # 启动服务
xw pull # 下载模型
xw run # 运行模型
xw list # 查看模型列表
xw ps # 查看运行状态
如果你已经习惯了 Ollama 的操作方式,切到玄武 CLI 不需要重新记一套心智模型。比如拉一个模型,直接 xw pull qwen3-32b 就够了。
推理引擎不是单一路线
它底层用了自研的 MLGuider 推理引擎,重点是把性能和兼容性尽量拉平。同时也兼容芯片原生框架和社区里常见的推理引擎,比如昇腾原生 MindIE、vLLM 这类方案。这个思路挺务实,毕竟国产芯片生态现在还谈不上完全统一,单押一条路风险太高。
API 兼容性做得比较实用
玄武 CLI 对 OpenAI API 标准是兼容的。现有基于 LangChain、LlamaIndex 或 IDE 插件的应用,大多数情况下只需要换一行 API 地址,业务代码不用重写。这种兼容方式不花哨,但落地时很省时间。
硬件识别和离线能力
它支持华为昇腾全系列、沐曦等多款国产芯片,并且能自动识别硬件,匹配合适的推理引擎。对开发者来说,少掉了不少翻文档和手工编译的活。
另一个比较现实的点是离线运行。所有推理都在本地完成,不依赖云端,模型权重不上云,推理数据也不外传。对数据敏感的企业场景,这通常比'功能多不多'更重要。
集群版
如果不是单机试用,而是智算中心或大企业场景,玄武还有一个 玄武智算平台(集群版)。
它更像是把国产异构算力放进统一管理框架里,解决的是'谁在用、怎么调度、怎么计费'的问题,而不只是单点部署。
- 统一纳管:把华为、寒武纪、昆仑芯、摩尔线程、沐曦、燧原等多种芯片放到同一套调度体系里
- 全栈自动化:偏生产级管理,减少人工干预
- 计量计费:内置 API 管理和计量计费模块,方便做资源分配和商业化运营
资源链接
结语
玄武 CLI 解决的不是'模型有多强',而是'国产芯片能不能更快用起来'这个更实际的问题。它把部署门槛压低了,也把国产算力接进了现在这套本地大模型工作流里。对开发者来说,省下来的往往不是一点点配置时间,而是整个试错周期。

