本地部署 Qwen3.5:从环境搭建到股票筛选应用
在当今 AI 技术快速迭代的背景下,大模型的能力边界不断被突破,但随之而来的隐私安全、推理成本等问题也逐渐凸显。对于许多企业和研究者而言,将大模型部署在本地环境,既能保证数据隐私,又能灵活控制推理流程,成为了迫切需求。我们近期完成了一个项目,帮助客户实现了 Qwen3.5 大模型的本地化部署,并基于此开发了一款股票筛选工具,整个方案已通过实际业务校验。
本文将从环境准备开始,一步步讲解如何在单 GPU 上高效运行 Qwen3.5,包括 llama.cpp 的编译、模型下载、服务启动,以及最终的应用开发。希望能为有大模型本地化需求的读者提供一些实用参考。
硬件与软件要求
要在本地流畅运行 Qwen3.5,得先满足硬件和软件要求。我们这次用的是 NVIDIA H200 GPU(141GB 显存),搭配 240GB 系统内存,能高效运行 MXFP4_MOE 版本的 Qwen3.5。
作为参考,Unsloth 4-bit 动态量化版本 UD-Q4_K_XL 大约占 214GB 磁盘空间,能直接放在 256GB 的设备上,也能在单张 24GB GPU 加 256GB 内存的环境中运行,每秒能生成 25 个以上 token。3-bit 量化版本能放在 192GB 内存里,8-bit 版本则需要最多 512GB 的显存和内存总和。
一般来说,显存加内存的总和最好和量化后的模型大小差不多。如果不够,llama.cpp 能把部分模型卸载到 SSD,但推理速度会变慢。
软件方面,得安装最新的 NVIDIA GPU 驱动,还有近期的 CUDA Toolkit,保证和 llama.cpp、CUDA 加速推理兼容。
环境搭建
要在本地运行 Qwen3.5,得有一台性能强劲的 GPU 机器。大多数笔记本和台式机没有足够的显存或内存来运行这么大的模型,所以我们用云 GPU 虚拟机。
这次我们用 Hyperbolic 来私密运行模型,也可以用 AutoDL、恒源云等替代平台。选 Hyperbolic 是因为它目前的 GPU 实例性价比很高。
先启动一个单 H200 GPU 的实例。机器启动后,能看到公网 IP 地址和连接所需的 SSH 命令。
连接前,确保本地设置好了 SSH,创建虚拟机时添加了公钥。实例准备好后,用带端口转发的 SSH 连接。这很重要,因为我们要通过 8080 端口在本地访问 llama.cpp 推理服务:
ssh -L 8080:localhost:8080 root@<your_public_ip>
第一次连接时,输入 yes 确认,然后用 SSH 密钥认证。
登录后,验证 GPU 是否正确检测:
nvidia-smi
输出里应该能看到 NVIDIA H200。
最后,安装下载、编译和运行 llama.cpp 所需的 Linux 软件包:
sudo apt update
sudo apt install pciutils build-essential cmake curl libcurl4-openssl-dev -y
完成这一步后,环境就准备好安装 llama.cpp 和本地运行 Qwen3.5 了。
安装 llama.cpp
llama.cpp 是开源的 C/C++ 推理引擎,能让你用最少的设置本地运行大语言模型,支持 CPU 和 GPU 加速。
先克隆 llama.cpp 仓库:
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
接下来,用 CMake 配置启用 CUDA 的构建。我们用 -DGGML_CUDA=ON 启用 CUDA,把 CUDA 架构设为 90a,因为我们用的是 NVIDIA H200(Hopper 架构)。这能让构建生成针对 Hopper 特性优化的 GPU 代码。
现在编译服务器二进制文件。llama-server 是内置的 REST 服务器,能把 llama.cpp 暴露为 API 端点:
cmake -B build -DGGML_CUDA=ON -DCMAKE_BUILD_TYPE=Release -DGGML_CUDA_ARCHITECTURE=90a
cmake --build build --config Release
最后,把编译好的二进制文件复制到主文件夹,方便运行:

