AMD AI MAX+395 迷你主机 vLLM 部署指南
1. 操作系统环境
系统版本:Ubuntu 24.04.3
2. 安装 ROCm
版本要求:ROCm 7.1 官方文档参考:ROCm 安装前置条件
3. 配置 Python 环境
使用 Conda 安装 Python 3.12 版本。 由于 PyTorch 尚未完全兼容 ROCm 7.1 的通用包,需使用 ROCm 编译的安装包(包含 torch, tensorflow, apex, jax, jaxlib, torchaudio, torchvision, triton)。 下载地址:ROCm Manylinux Repo 安装命令示例:
pip install XXXX.whl
验证安装:确保 PyTorch 版本对应 ROCm 7.1。
4. 安装 vLLM 前准备
git clone https://github.com/ROCm/flash-attention.git
cd flash-attention && git checkout v2.7.3-cktile && python setup.py install
pip install amdsmi --force-reinstall
pip install amdsmi==7.0.2
5. 编译安装 vLLM
git clone -b v0.13.0 https://github.com/vllm-project/vllm.git
pip install --upgrade packaging --ignore-installed
pip install -r requirements/rocm.txt
export PYTORCH_ROCM_ARCH="gfx1151"
python3 setup.py install
6. 下载模型
模型资源链接:https://modelscope.cn/models/openai-mirror/gpt-oss-120b
7. 运行 vLLM
vllm serve ./qwen3-32 --served-model-name qwen3-32 --dtype auto --max-model-len 32768 --host 0.0.0.0 --port 8000 --async-scheduling

