Qwen3.5 小尺寸模型开源：昇腾适配完成及部署指南

Qwen3.5 小尺寸模型系列与昇腾适配

近日，千问（Qwen）正式开源了 Qwen3.5 小尺寸模型系列，包括 Qwen3.5-0.8B、2B、4B 和 9B。目前，昇腾生态已完成对这四款模型的适配支持，开发者可直接获取权重并进行部署测试。

不同参数量级的适用场景

虽然是小尺寸模型，但 Qwen3.5 继承了家族的统一架构与训练体系，采用原生多模态训练与最新结构优化，在轻量体积下依然保持了不错的综合能力。

0.8B / 2B：轻量化优先，面向端侧部署

参数规模小，占用资源低，推理延迟控制表现突出，适合算力与显存受限环境。典型应用场景包括移动端设备、IoT 边缘节点、本地嵌入式场景，以及对实时响应要求较高的低时延交互应用。

4B：轻量级 Agent 与多模态应用的平衡选择

在保持较低资源消耗的同时，具备较完整的多模态理解与推理能力，适合作为中等复杂度任务的基础模型。常用于轻量级智能体构建、多模态交互应用，以及需要平衡推理能力与算力成本的业务场景。

9B：紧凑规模下的高能力密度模型

在中小参数规模下实现较高能力上限，综合性能表现接近更大规模模型，具备较强的泛化与复杂任务处理能力。适合需要较高智力水平但受限显存资源的服务器端部署，是性价比极高的通用模型选择。

接下来我们以 Qwen3.5-2B 为例，带大家一步步完成在 Ascend 上的基于 vLLM 和 SGLang 的部署流程。其他几款模型的部署方式基本一致，可类比操作。

基于 vLLM 的部署流程

环境准备

模型权重

建议将模型权重下载至多节点共享目录，例如 /root/.cache/。确保使用的是 BF16 版本以匹配硬件特性。

安装方案

方案一：官方 Docker 镜像 推荐直接使用预编译的镜像压缩包进行部署，这样可以省去复杂的依赖配置过程。

# 使用 docker 加载下载的镜像压缩包
# 根据您的环境更新要加载的 vllm-ascend 镜像压缩包名称，以下以 A3 arm 为例
docker load -i Vllm-ascend-Qwen3_5-A3-Ubuntu-v0.tar

# 根据您的设备更新 --device（Atlas A3：/dev/davinci[0-15]）
# 注意：您需要提前将权重下载至 /root/.cache
export IMAGE=vllm-ascend:qwen3_5-v0-a3
export NAME=vllm-ascend

# 使用定义的变量运行容器
# 若使用 Docker 桥接网络，请提前开放可供多节点通信的端口
docker run --rm \
--name $NAME \
--net=host \
--shm-size=100g \
--device /dev/davinci0 \
--device /dev/davinci1 \
--device /dev/davinci2 \
--device /dev/davinci3 \
--device /dev/davinci4 \
--device /dev/davinci5 \
--device /dev/davinci6 \
--device /dev/davinci7 \
--device /dev/davinci_manager \
--device /dev/devmm_svm \
--device /dev/hisi_hdc \
-v /usr/local/dcmi:/usr/local/dcmi \
-v /usr/local/Ascend/driver/tools/hccn_tool:/usr/local/Ascend/driver/tools/hccn_tool \
-v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
-v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \
-v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \
-v /etc/ascend_install.info:/etc/ascend_install.info \
-v /root/.cache:/root/.cache \
-it  bash

Qwen3.5 小尺寸模型开源：昇腾适配完成及部署指南

Qwen3.5 小尺寸模型系列与昇腾适配

不同参数量级的适用场景

0.8B / 2B：轻量化优先，面向端侧部署

4B：轻量级 Agent 与多模态应用的平衡选择

9B：紧凑规模下的高能力密度模型

基于 vLLM 的部署流程

环境准备

模型权重

安装方案

更多推荐文章

相关免费在线工具

服务启动与测试

单节点部署（A3 系列）

发送请求测试

基于 SGLang 的部署流程

环境准备

权重下载

服务启动与测试

单节点部署

发送请求测试

更多推荐文章

相关免费在线工具

Qwen3.5 小尺寸模型开源：昇腾适配完成及部署指南

Qwen3.5 小尺寸模型系列与昇腾适配

不同参数量级的适用场景

0.8B / 2B：轻量化优先，面向端侧部署

4B：轻量级 Agent 与多模态应用的平衡选择

9B：紧凑规模下的高能力密度模型

基于 vLLM 的部署流程

环境准备

模型权重

安装方案

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

服务启动与测试

单节点部署（A3 系列）

发送请求测试

基于 SGLang 的部署流程

环境准备

权重下载

服务启动与测试

单节点部署

发送请求测试

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具