Qwen3.5 模型概述
Qwen3.5 是阿里推出的最新大模型系列,在推理、编程和多模态任务上都有出色表现。独立基准测试显示,Qwen3.5-397B-A17B 在 LiveCodeBench、AIME26 等测试中得分很高,不少类别上超过了主流模型,推理吞吐量也比前代提升明显。
硬件与软件要求
要在本地流畅运行 Qwen3.5,需满足硬件和软件要求。我们这次用的是 NVIDIA H200 GPU(141GB 显存),搭配 240GB 系统内存,能高效运行 MXFP4_MOE 版本的 Qwen3.5。
作为参考,Unsloth 4-bit 动态量化版本 UD-Q4_K_XL 大约占 214GB 磁盘空间,能直接放在 256GB 的设备上,也能在单张 24GB GPU 加 256GB 内存的环境中运行,每秒能生成 25 个以上 token。3-bit 量化版本能放在 192GB 内存里,8-bit 版本则需要最多 512GB 的显存和内存总和。
一般来说,显存加内存的总和最好和量化后的模型大小差不多。如果不够,llama.cpp 能把部分模型卸载到 SSD,但推理速度会变慢。
软件方面,需安装最新的 NVIDIA GPU 驱动,还有近期的 CUDA Toolkit,保证和 llama.cpp、CUDA 加速推理兼容。
环境搭建
要在本地运行 Qwen3.5,需有一台性能强劲的 GPU 机器。大多数笔记本和台式机没有足够的显存或内存来运行这么大的模型,所以我们用云 GPU 虚拟机。
先启动一个单 H200 GPU 的实例。
机器启动后,能看到公网 IP 地址和连接所需的 SSH 命令。
连接前,确保本地设置好了 SSH,创建虚拟机时添加了公钥。
实例准备好后,用带端口转发的 SSH 连接。这很重要,因为我们要通过 8080 端口在本地访问 llama.cpp 推理服务:
ssh -L 8080:localhost:8080 root@<VM_IP>
第一次连接时,输入 yes 确认,然后用 SSH 密钥认证。
登录后,验证 GPU 是否正确检测:
nvidia-smi
输出里应该能看到 NVIDIA H200。
最后,安装下载、编译和运行 llama.cpp 所需的 Linux 软件包:
sudo apt update
sudo apt install pciutils build-essential cmake curl libcurl4-openssl-dev -y
完成这步后,环境就准备好安装 llama.cpp 和本地运行 Qwen3.5 了。
安装 llama.cpp
llama.cpp 是开源的 C/C++ 推理引擎,能让你用最少的设置本地运行大语言模型,支持 CPU 和 GPU 加速。
先克隆 llama.cpp 仓库:
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
接下来,用 CMake 配置启用 CUDA 的构建。我们用 -DGGML_CUDA=ON 启用 CUDA,把 CUDA 架构设为 90a,因为我们用的是 NVIDIA H200(Hopper 架构)。这能让构建生成针对 Hopper 特性优化的 GPU 代码。
现在编译服务器二进制文件。llama-server 是内置的 REST 服务器,能把 llama.cpp 暴露为 API 端点:
mkdir build && cd build
cmake .. -DGGML_CUDA=ON -DCMAKE_BUILD_TYPE=Release
cmake --build . --config Release

