Qwen3.5 小尺寸模型系列与昇腾适配
近日,千问(Qwen)正式开源了 Qwen3.5 小尺寸模型系列,包括 Qwen3.5-0.8B、2B、4B 和 9B。目前,昇腾生态已完成对这四款模型的适配支持,开发者可直接获取权重并进行部署测试。
不同参数量级的适用场景
虽然是小尺寸模型,但 Qwen3.5 继承了家族的统一架构与训练体系,采用原生多模态训练与最新结构优化,在轻量体积下依然保持了不错的综合能力。
0.8B / 2B:轻量化优先,面向端侧部署
参数规模小,占用资源低,推理延迟控制表现突出,适合算力与显存受限环境。典型应用场景包括移动端设备、IoT 边缘节点、本地嵌入式场景,以及对实时响应要求较高的低时延交互应用。
4B:轻量级 Agent 与多模态应用的平衡选择
在保持较低资源消耗的同时,具备较完整的多模态理解与推理能力,适合作为中等复杂度任务的基础模型。常用于轻量级智能体构建、多模态交互应用,以及需要平衡推理能力与算力成本的业务场景。
9B:紧凑规模下的高能力密度模型
在中小参数规模下实现较高能力上限,综合性能表现接近更大规模模型,具备较强的泛化与复杂任务处理能力。适合需要较高智力水平但受限显存资源的服务器端部署,是性价比极高的通用模型选择。
接下来我们以 Qwen3.5-2B 为例,带大家一步步完成在 Ascend 上的基于 vLLM 和 SGLang 的部署流程。其他几款模型的部署方式基本一致,可类比操作。
基于 vLLM 的部署流程
环境准备
模型权重
建议将模型权重下载至多节点共享目录,例如 /root/.cache/。确保使用的是 BF16 版本以匹配硬件特性。
安装方案
方案一:官方 Docker 镜像 推荐直接使用预编译的镜像压缩包进行部署,这样可以省去复杂的依赖配置过程。
# 使用 docker 加载下载的镜像压缩包
# 根据您的环境更新要加载的 vllm-ascend 镜像压缩包名称,以下以 A3 arm 为例
docker load -i Vllm-ascend-Qwen3_5-A3-Ubuntu-v0.tar
# 根据您的设备更新 --device(Atlas A3:/dev/davinci[0-15])
# 注意:您需要提前将权重下载至 /root/.cache
export IMAGE=vllm-ascend:qwen3_5-v0-a3
export NAME=vllm-ascend
# 使用定义的变量运行容器
# 若使用 Docker 桥接网络,请提前开放可供多节点通信的端口
docker run --rm \
--name $NAME \
--net=host \
--shm-size=100g \
--device /dev/davinci0 \
--device /dev/davinci1 \
--device /dev/davinci2 \
--device /dev/davinci3 \
--device /dev/davinci4 \
--device /dev/davinci5 \
--device /dev/davinci6 \
--device /dev/davinci7 \
--device /dev/davinci_manager \
--device /dev/devmm_svm \
--device /dev/hisi_hdc \
-v /usr/local/dcmi:/usr/local/dcmi \
-v /usr/local/Ascend/driver/tools/hccn_tool:/usr/local/Ascend/driver/tools/hccn_tool \
-v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
-v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \
-v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \
-v /etc/ascend_install.info:/etc/ascend_install.info \
-v /root/.cache:/root/.cache \
-it bash


