Qwen3.5 大模型单 GPU 高效部署与股票筛选应用
在当今 AI 技术快速迭代的背景下,大模型的能力边界不断被突破,但随之而来的隐私安全、推理成本等问题也逐渐凸显。对于许多企业和研究者而言,将大模型部署在本地环境,既能保证数据隐私,又能灵活控制推理流程,成为了迫切需求。我们团队在近期的一个咨询项目中,就帮助客户完成了 Qwen3.5 大模型的本地化部署,并基于此开发了一款股票筛选工具,整个方案已通过实际业务校验。
本文将从环境准备开始,一步步讲解如何在单 GPU 上高效运行 Qwen3.5,包括 llama.cpp 的编译、模型下载、服务启动,以及最终的应用开发。希望能为有大模型本地化需求的读者提供一些实用参考。
Qwen3.5 模型概述
Qwen3.5 是阿里推出的最新大模型系列,在推理、编程和多模态任务上都有出色表现。独立基准测试显示,Qwen3.5-397B-A17B 在 LiveCodeBench、AIME26 等测试中得分很高,不少类别上超过了主流模型,推理吞吐量也比前代提升明显。

硬件与软件要求
要在本地流畅运行 Qwen3.5,得先满足硬件和软件要求。我们这次用的是 NVIDIA H200 GPU(141GB 显存),搭配 240GB 系统内存,能高效运行 MXFP4_MOE 版本的 Qwen3.5。
作为参考,Unsloth 4-bit 动态量化版本 UD-Q4_K_XL 大约占 214GB 磁盘空间,能直接放在 256GB 的设备上,也能在单张 24GB GPU 加 256GB 内存的环境中运行,每秒能生成 25 个以上 token。3-bit 量化版本能放在 192GB 内存里,8-bit 版本则需要最多 512GB 的显存和内存总和。
一般来说,显存加内存的总和最好和量化后的模型大小差不多。如果不够,llama.cpp 能把部分模型卸载到 SSD,但推理速度会变慢。
软件方面,得安装最新的 NVIDIA GPU 驱动,还有近期的 CUDA Toolkit,保证和 llama.cpp、CUDA 加速推理兼容。
环境搭建
要在本地运行 Qwen3.5,得有一台性能强劲的 GPU 机器。大多数笔记本和台式机没有足够的显存或内存来运行这么大的模型,所以我们用云 GPU 虚拟机。
这次我们用 Hyperbolic 来私密运行模型,也可以用 AutoDL、恒源云等替代平台。选 Hyperbolic 是因为它目前的 GPU 实例性价比很高。
先启动一个单 H200 GPU 的实例。

机器启动后,能看到公网 IP 地址和连接所需的 SSH 命令。
连接前,确保本地设置好了 SSH,创建虚拟机时添加了公钥。
实例准备好后,用带端口转发的 SSH 连接。这很重要,因为我们要通过 8080 端口在本地访问 llama.cpp 推理服务:
ssh -L 8080:localhost:8080 [email protected]
第一次连接时,输入 yes 确认,然后用 SSH 密钥认证。

登录后,验证 GPU 是否正确检测:
nvidia-smi
输出里应该能看到 NVIDIA H200。












