AMD 显卡本地部署 AI 大模型实战指南

在 AMD GPU 上运行本地 AI 大模型并非难事，关键在于正确配置 ROCm 环境并使用适配的工具链。Ollama-for-amd 项目扩展了 AMD GPU 的支持，让 Llama 3、Mistral、Gemma 等主流模型能在本地流畅运行。下面分享具体的部署流程与调优经验。

硬件兼容性确认

并非所有 AMD 显卡都支持 AI 计算，建议先核对硬件列表。以下系列经过充分测试：

Linux 系统兼容显卡

Radeon RX 系列：7900 XTX/XT、7800 XT、6950 XT 等消费级显卡
Radeon PRO 系列：W7900/W7800、V620 等专业工作站显卡
Instinct 加速卡：MI300X/A、MI250X 等数据中心级计算卡

Windows 系统兼容显卡

Radeon RX 系列：7900 XTX/XT、7600 XT、6900 XTX 等

部署前必须确保已安装 ROCm SDK。Linux 推荐 v6.1+ 版本，Windows 同样需要 v6.1+ 版本，这是 AMD GPU 运行 AI 模型的必备基础。

环境搭建与编译

获取源码后，我们需要处理依赖并构建可执行文件。整个过程依赖 Go 语言环境（1.21+）。

首先克隆项目仓库到本地目录：

git clone <repository-url>
cd ollama-for-amd

接着处理依赖：

go mod tidy

该命令会自动拉取所需包，无需手动配置。

根据操作系统选择构建脚本。Linux 用户执行：

./scripts/build_linux.sh

Windows 用户在 PowerShell 中运行：

.\\\\\\scripts\\\\build_windows.ps1

构建完成后，可执行文件将生成在项目根目录。

验证与配置

安装成功后，先检查 GPU 识别状态：

./ollama run --list-gpus

若正确显示显卡信息，说明环境就绪。

对于多 GPU 环境，可通过环境变量指定设备。Linux 下设置：

export ROCR_VISIBLE_DEVICES=0,1

Windows 下设置：

set ROCR_VISIBLE_DEVICES=0

性能方面，可在 envconfig/config.go 中调整关键参数。例如 GPU 内存使用比例默认设为 0.9，可根据实际需求微调；架构版本也可通过 HSA_OVERRIDE_GFX_VERSION 指定，如 10.3.0。

故障排查

如果 GPU 未被识别，请检查 ROCm 驱动状态：

rocminfo | grep -i "gfx"

若输出为空，通常需要重新安装驱动。若模型加载过慢，尝试增加系统 swap 空间，或调整 llm/memory.go 中的内存分配策略。

模型运行

下载并启动首个模型（以 Llama 3 为例）：

./ollama pull llama3
./ollama run llama3

AMD 显卡本地部署 AI 大模型实战指南