Ubuntu 下 AMD AI MAX 395 使用 ROCm 部署 Qwen 模型

一、ROCm 7.0 驱动安装

首先确保系统已正确识别 GPU。官方安装指南如下：AMD ROCm 安装文档。如需其他版本，可查阅 AMD 仓库。

# 更新 apt 缓存并安装基础工具
sudo apt update && sudo apt install wget -y

# 若之前安装过旧驱动，建议先清理（可选）
sudo apt autoremove amdgpu-dkms
sudo rm /etc/apt/sources.list.d/amdgpu.list
sudo rm -rf /var/cache/apt/*
sudo apt clean all
sudo apt update

# 下载并安装 ROCm 7.0.3 版本
wget https://repo.radeon.com/amdgpu-install/7.0.3/ubuntu/jammy/amdgpu-install_7.0.3.70003-1_all.deb
sudo apt install ./amdgpu-install_7.0.3.70003-1_all.deb

# 安装必要的 Python 依赖
sudo apt install python3-setuptools python3-wheel

# 将当前用户加入 render 和 video 组
sudo usermod -aG render,video $LOGNAME

# 安装核心驱动组件
sudo apt install rocm
sudo apt update
sudo apt install "linux-headers-$(uname -r)" "linux-modules-extra-$(uname -r)"
sudo apt install amdgpu-dkms

# 再次确认用户组权限
sudo usermod -aG render $USER
sudo usermod -aG video $USER

# 重启系统生效
reboot

# 验证 GPU 信息
rocminfo | grep gfx

import torch import uvicorn from fastapi import FastAPI, HTTPException from pydantic import BaseModel from typing import List, Optional from transformers import AutoModelForCausalLM, AutoTokenizer MODEL_PATH = "/model" PORT = 8002 app = FastAPI() print(f"Loading model from {MODEL_PATH} ...") tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH, padding_side='left', trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained( MODEL_PATH, trust_remote_code=True, device_map="auto", torch_dtype=torch.float16, attn_implementation="flash_attention_2" ).eval() token_false_id = tokenizer.convert_tokens_to_ids("no") token_true_id = tokenizer.convert_tokens_to_ids("yes") prefix = "<|im_start|>system\nJudge whether the Document meets the requirements based on the Query and the Instruct provided. Note that the answer can only be \"yes\" or \"no\".<|im_end|>\n<|im_start|>user\n" suffix = "<|im_end|>\n<|im_start|>assistant\n\n\n" prefix_tokens = tokenizer.encode(prefix, add_special_tokens=False) suffix_tokens = tokenizer.encode(suffix, add_special_tokens=False) max_length = 8192 print("Model loaded successfully!") def format_instruction(instruction, query, doc): if instruction is None or instruction == "": instruction = 'Given a web search query, retrieve relevant passages that answer the query' return "<Instruct>: {instruction}\n<Query>: {query}\n<Document>: {doc}".format(instruction=instruction, query=query, doc=doc) def process_inputs(pairs): inputs = tokenizer(pairs, padding=False, truncation='longest_first', return_attention_mask=False, max_length=max_length - len(prefix_tokens) - len(suffix_tokens)) for i, ele in enumerate(inputs['input_ids']): inputs['input_ids'][i] = prefix_tokens + ele + suffix_tokens inputs = tokenizer.pad(inputs, padding=True, return_tensors="pt", max_length=max_length) for key in inputs: inputs[key] = inputs[key].to(model.device) return inputs @torch.no_grad() def compute_scores(inputs): batch_scores = model(**inputs).logits[:, -1, :] true_vector = batch_scores[:, token_true_id] false_vector = batch_scores[:, token_false_id] batch_scores = torch.stack([false_vector, true_vector], dim=1) batch_scores = torch.nn.functional.log_softmax(batch_scores, dim=1) scores = batch_scores[:, 1].exp().tolist() return scores class RerankRequest(BaseModel): model: str = "qwen-reranker" query: str documents: List[str] top_n: Optional[int] = None instruction: Optional[str] = None @app.post("/v1/rerank") async def rerank(request: RerankRequest): try: query = request.query documents = request.documents instruction = request.instruction if not documents: return {"results": []} pairs = [format_instruction(instruction, query, doc) for doc in documents] inputs = process_inputs(pairs) scores = compute_scores(inputs) results = [] for i, score in enumerate(scores): results.append({"index": i, "relevance_score": float(score), "document": documents[i]}) results.sort(key=lambda x: x["relevance_score"], reverse=True) if request.top_n: results = results[:request.top_n] return {"model": request.model, "results": results, "usage": {"total_tokens": inputs.input_ids.numel()}} except Exception as e: print(f"Error: {e}") raise HTTPException(status_code=500, detail=str(e)) if __name__ == "__main__": uvicorn.run(app, host="0.0.0.0", port=PORT)

Ubuntu 下 AMD AI MAX 395 使用 ROCm 部署 Qwen 模型