AMD AI MAX+395 迷你主机基于 ROCm 部署 vLLM 大模型实践 | 极客日志

PythonAI算法

AMD AI MAX+395 迷你主机基于 ROCm 部署 vLLM 大模型实践

综述由AI生成详细记录了在 AMD AI MAX+395 迷你主机上，基于 Ubuntu 24.04.3 系统，通过安装 ROCm 7.1 驱动、配置 Conda 及编译适配版 PyTorch，完成 vLLM 框架的构建与大模型部署的全过程。内容包括环境依赖安装、Flash Attention 编译、vLLM 源码构建以及模型服务启动命令，适用于具备一定 Linux 操作经验的开发者进行本地大模型推理测试。

GopherDev发布于 2026/4/5更新于 2026/5/2236 浏览

AMD AI MAX+395 迷你主机 vLLM 部署指南

1. 操作系统环境

系统版本：Ubuntu 24.04.3

2. 安装 ROCm

版本要求：ROCm 7.1 官方文档参考：ROCm 安装前置条件

3. 配置 Python 环境

使用 Conda 安装 Python 3.12 版本。由于 PyTorch 尚未完全兼容 ROCm 7.1 的通用包，需使用 ROCm 编译的安装包（包含 torch, tensorflow, apex, jax, jaxlib, torchaudio, torchvision, triton）。下载地址：ROCm Manylinux Repo 安装命令示例：

pip install XXXX.whl

验证安装：确保 PyTorch 版本对应 ROCm 7.1。

4. 安装 vLLM 前准备

git clone https://github.com/ROCm/flash-attention.git
cd flash-attention && git checkout v2.7.3-cktile && python setup.py install
pip install amdsmi --force-reinstall
pip install amdsmi==7.0.2

5. 编译安装 vLLM

git clone -b v0.13.0 https://github.com/vllm-project/vllm.git
pip install --upgrade packaging --ignore-installed
pip install -r requirements/rocm.txt
export PYTORCH_ROCM_ARCH="gfx1151"
python3 setup.py install

6. 下载模型

模型资源链接：https://modelscope.cn/models/openai-mirror/gpt-oss-120b

7. 运行 vLLM

vllm serve ./qwen3-32 --served-model-name qwen3-32 --dtype auto --max-model-len 32768 --host 0.0.0.0 --port 8000 --async-scheduling

AMD AI MAX+395 迷你主机基于 ROCm 部署 vLLM 大模型实践

AMD AI MAX+395 迷你主机 vLLM 部署指南

1. 操作系统环境

2. 安装 ROCm

3. 配置 Python 环境

4. 安装 vLLM 前准备

5. 编译安装 vLLM

6. 下载模型

7. 运行 vLLM

更多推荐文章

相关免费在线工具

更多推荐文章

相关免费在线工具

AMD AI MAX+395 迷你主机基于 ROCm 部署 vLLM 大模型实践

AMD AI MAX+395 迷你主机 vLLM 部署指南

1. 操作系统环境

2. 安装 ROCm

3. 配置 Python 环境

4. 安装 vLLM 前准备

5. 编译安装 vLLM

6. 下载模型

7. 运行 vLLM

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具