HSA Runtime 架构概览

📋 本章学习目标

完成本章学习后，你将能够：

✅ 理解 HSA Runtime 的三层架构设计
✅ 掌握主要组件（Agent、Queue、Signal、Memory）的关系
✅ 了解 Runtime 的初始化与销毁流程
✅ 熟悉 Runtime 配置选项和环境变量
✅ 知道如何启用调试和追踪功能

2.1 Runtime 层次结构

HSA Runtime 采用三层架构设计，实现了接口与实现的分离，提供了良好的可扩展性。

2.1.1 三层架构总览

┌─────────────────────────────────────────────────┐
│ 应用程序 (User Application)                     │
│ (C/C++, Python, HIP, OpenCL 等)                 │
└─────────────────────────────────────────────────┘
↓ 调用
┌─────────────────────────────────────────────────┐
│ 第一层：公共 API 层 (Public API Layer)            │
│ ┌───────────────────────────────────────────┐   │
│ │ inc/hsa.h - HSA 标准 API                   │   │
│ │ inc/hsa_ext_amd.h - AMD 扩展 API           │   │
│ │ inc/hsa_ext_image.h - Image 扩展           │   │
│ │ inc/hsa_ext_finalize.h - Finalizer 扩展    │   │
│ └───────────────────────────────────────────┘   │
│                                                 │
│ 特点：                                          │
│ • C 语言接口，ABI 稳定                           │
│ • 遵循 HSA 规范                                  │
│ • 跨平台、跨厂商                               │
└─────────────────────────────────────────────────┘
↓ 实现
┌─────────────────────────────────────────────────┐
│ 第二层：核心实现层 (Core Runtime Layer)         │
│ ┌───────────────────────────────────────────┐   │
│ │ core/runtime/runtime.cpp                  │   │
│ │ - Runtime 主控类                            │   │
│ │ - Agent 管理                                │   │
│ │ - 资源协调                                 │   │
│ └───────────────────────────────────────────┘   │
│ ┌───────────────────────────────────────────┐   │
│ │ 核心组件实现 (C++)                         │   │
│ │ ├─ core/runtime/amd_gpu_agent.cpp        │   │
│ │ ├─ core/runtime/amd_cpu_agent.cpp        │   │
│ │ ├─ core/runtime/amd_aql_queue.cpp        │   │
│ │ ├─ core/runtime/signal.cpp               │   │
│ │ ├─ core/runtime/amd_memory_region.cpp    │   │
│ │ └─ core/runtime/amd_topology.cpp         │   │
│ └───────────────────────────────────────────┘   │
│ ┌───────────────────────────────────────────┐   │
│ │ Driver 抽象 (core/inc/driver.h)            │   │
│ │ - 面向对象的驱动接口封装                   │   │
│ │ - Driver 基类定义                          │   │
│ │ - 支持多种驱动类型 (KFD/XDNA/Virtio)       │   │
│ │ - 统一的硬件操作接口                       │   │
│ └───────────────────────────────────────────┘   │
│                                                 │
│ 特点：                                          │
│ • C++ 实现，面向对象设计                        │
│ • 设备无关的抽象                               │
│ • 业务逻辑核心                                 │
└─────────────────────────────────────────────────┘
↓ 调用
┌─────────────────────────────────────────────────┐
│ 第三层：驱动抽象层 (Driver Abstraction Layer)   │
│ ┌───────────────────────────────────────────┐   │
│ │ Thunk Layer (libhsakmt.so)                │   │
│ │ - KFD 用户态封装                           │   │
│ │ - 系统调用转换                             │   │
│ │ - 设备枚举                                 │   │
│ └───────────────────────────────────────────┘   │
│ ┌───────────────────────────────────────────┐   │
│ │ KFD (Kernel Fusion Driver)                │   │
│ │ - amdgpu 内核模块                          │   │
│ │ - 硬件资源管理                             │   │
│ │ - 内存管理                                 │   │
│ │ - 队列调度                                 │   │
│ └───────────────────────────────────────────┘   │
│                                                 │
│ 特点：                                          │
│ • 内核态驱动                                   │
│ • 直接操作硬件                                 │
│ • 权限管理                                     │
└─────────────────────────────────────────────────┘
↓ 控制
┌─────────────────────────────────────────────────┐
│ GPU 硬件 (AMD GPU Hardware)                      │
│ GCN/RDNA/CDNA 架构                              │
└─────────────────────────────────────────────────┘

┌────────────────────────────────────────────────────────────┐ │ Runtime (单例) │ │ ┌──────────────────────────────────────────────────────┐ │ │ │ • 全局状态管理 │ │ │ │ • Agent 分类管理 (GPU/CPU/AIE) │ │ │ │ • MemoryRegion 池 │ │ │ │ • Extension 管理 │ │ │ └──────────────────────────────────────────────────────┘ │ │ │ │ 持有（unique_ptr） │ │ ↓ │ │ ┌──────────────────────────────────────┐ │ │ │ agent_drivers_: vector<unique_ptr> │ │ │ │ ├─ KfdDriver (for GPU) │ │ │ │ ├─ XdnaDriver (for AIE) │ │ │ │ └─ VirtioDriver (for VM) │ │ │ └──────────────────────────────────────┘ │ │ │ │ 共享引用 | 管理 │ │ ↓ ↓ │ │ ┌─────────────┐ ┌─────────────┐ │ │ │ GPU Agents │ │ AIE Agents │ │ │ └─────────────┘ └─────────────┘ │ │ │ │ 通过各自的 Driver │ │ ↓ ↓ │ │ ┌─────────────┐ ┌─────────────┐ │ │ │ Thunk (KFD) │ │ Thunk (XDNA)│ │ │ └─────────────┘ └─────────────┘ │ └────────────────────────────────────────────────────────────┘ │ │ │ ioctl │ │ ioctl │ │ ↓ ↓ │ │ /dev/kfd /dev/accel/accel0 │ ┌──────────────────────────────────────┐ │ Agent (抽象基类) │ │ ┌────────────────────────────────┐ │ │ │ 成员：Driver* driver_ │ ← 持有 Driver 引用 │ │ │ (不拥有，由 Runtime 管理) │ │ │ └────────────────────────────────┘ │ │ │ │ ├─ GpuAgent (使用 KfdDriver) │ │ │ - driver_->CreateQueue() │ │ │ - driver_->AllocateMemory() │ │ │ - VRAM/LDS 管理 │ │ │ │ │ ├─ CpuAgent (无需驱动) │ │ │ - System Memory │ │ │ - Host Queue │ │ │ │ │ └─ AieAgent (使用 XdnaDriver) │ │ - driver_->CreateQueue() │ │ - AIE 特定操作 │ └──────────────────────────────────────┘ │ │ 拥有 │ │ ↓ │ ┌──────────────────────────────────────┐ │ MemoryRegion (内存区域) │ │ ├─ System Region (Fine/Coarse) │ │ ├─ Local Region (VRAM) │ │ ├─ LDS Region │ │ └─ Group Memory │ └──────────────────────────────────────┘ │ │ 分配 │ │ ↓ │ ┌──────────────────────────────────────┐ │ Memory Allocation │ │ (用户的内存指针) │ └──────────────────────────────────────┘ ┌──────────────────────────────────────┐ │ Queue (队列抽象) │ │ ├─ AqlQueue (GPU 硬件队列) │ │ ├─ HostQueue (CPU 软件队列) │ │ └─ InterceptQueue (调试/Trace) │ └──────────────────────────────────────┘ │ │ 包含 │ │ ↓ │ ┌──────────────────────────────────────┐ │ AQL Packet Ring Buffer │ │ [Dispatch][Barrier][Dispatch]... │ └──────────────────────────────────────┘ │ │ 关联 │ │ ↓ │ ┌──────────────────────────────────────┐ │ Signal (同步信号) │ │ ├─ DefaultSignal (共享内存) │ │ ├─ InterruptSignal (事件驱动) │ │ └─ IpcSignal (跨进程) │ └──────────────────────────────────────┘

// 应用程序调用 hsa_status_t status = hsa_init(); // ↓ 内部实现 (core/runtime/runtime.cpp) bool Runtime::Acquire() { ScopedAcquire<KernelMutex> lock(&runtime_lock_); if (ref_count_ == 0) { // 第一次初始化 // 1. 检测并创建所需的 Driver 实例 // 根据系统硬件配置，可能创建多个不同类型的 Driver // 1a. 检测 GPU 设备，创建 KFD Driver if (DetectGpuDevices()) { auto kfd_driver = std::make_unique<KfdDriver>(DriverType::KFD, "/dev/kfd"); if (kfd_driver->Init() == HSA_STATUS_SUCCESS && kfd_driver->Open() == HSA_STATUS_SUCCESS) { agent_drivers_.push_back(std::move(kfd_driver)); } } // 1b. 检测 AIE 设备，创建 XDNA Driver（如果存在） if (DetectAieDevices()) { auto xdna_driver = std::make_unique<XdnaDriver>(DriverType::XDNA, "/dev/accel/accel0"); if (xdna_driver->Init() == HSA_STATUS_SUCCESS && xdna_driver->Open() == HSA_STATUS_SUCCESS) { agent_drivers_.push_back(std::move(xdna_driver)); } } // 2. 为每个 Driver 枚举并创建对应的 Agent for (auto& driver : agent_drivers_) { HsaSystemProperties sys_props; driver->GetSystemProperties(sys_props); // 枚举此驱动管理的所有节点 for (uint32_t node = 0; node < sys_props.NumNodes; node++) { HsaNodeProperties node_props; driver->GetNodeProperties(node_props, node); Agent* agent = nullptr; // 根据节点类型创建相应的 Agent if (node_props.NumCPUCores > 0) { // CPU 节点（不需要驱动） agent = new amd::CpuAgent(node, node_props, nullptr); cpu_agents_.push_back(agent); } else if (node_props.NumFComputeCores > 0) { // GPU 节点 - 传入 KFD Driver 引用 agent = new amd::GpuAgent(node, node_props, driver.get()); gpu_agents_.push_back(agent); } else if (IsAieNode(node_props)) { // AIE 节点 - 传入 XDNA Driver 引用 agent = new amd::AieAgent(node, node_props, driver.get()); aie_agents_.push_back(agent); } if (agent) { // 将 Agent 添加到统一索引 agents_by_node_[node] = agent; } } } // 3. 为每个 Agent 初始化 MemoryRegion // Agent 内部会通过 driver_ 查询内存属性 for (auto& [node_id, agent] : agents_by_node_) { agent->InitRegions(); } // 4. 建立 Agent 间的拓扑关系 DiscoverTopology(); // 5. 加载 Extensions LoadExtensions(); // 6. 初始化工具库（Trace/Profile） LoadTools(); } ref_count_++; return true; }

hsa_init() ↓ Runtime::Acquire() ↓ ┌────────────────────────────────────┐ │ 1. 检测硬件并创建 Driver 实例 │ │ ┌──────────────────────────┐ │ │ │ 检测 GPU → KfdDriver │ │ │ │ → new KfdDriver("/dev/kfd") │ │ │ │ Init() + Open() │ │ │ │ agent_drivers_.push_back()│ │ │ └──────────────────────────┘ │ │ ┌──────────────────────────┐ │ │ │ 检测 AIE → XdnaDriver │ │ │ │ → new XdnaDriver("/dev/accel/accel0") │ │ │ │ Init() + Open() │ │ │ │ agent_drivers_.push_back()│ │ │ └──────────────────────────┘ │ └────────────────────────────────────┘ ↓ ┌────────────────────────────────────┐ │ 2. 为每个 Driver 枚举设备节点 │ │ 对 agent_drivers_ 中每个 driver │ │ ↓ │ │ driver->GetSystemProperties() │ │ driver->GetNodeProperties() │ └────────────────────────────────────┘ ↓ ┌────────────────────────────────────┐ │ 3. 创建 Agent 并关联 Driver │ │ ┌─────────────────────────────┐ │ │ │ CpuAgent(node, props, nullptr) │ → cpu_agents_ │ │ │ （CPU 不需要驱动） │ │ │ └─────────────────────────────┘ │ │ ┌─────────────────────────────┐ │ │ │ GpuAgent(node, props, kfd_driver) │ → gpu_agents_ │ │ │ （传入 KFD Driver 引用） │ │ │ └─────────────────────────────┘ │ │ ┌─────────────────────────────┐ │ │ │ AieAgent(node, props, xdna_driver) │ → aie_agents_ │ │ │ （传入 XDNA Driver 引用） │ │ │ └─────────────────────────────┘ │ │ 所有 Agent 统一索引到 │ │ agents_by_node_[node] │ └────────────────────────────────────┘ ↓ ┌────────────────────────────────────┐ │ 4. 初始化 MemoryRegion │ │ agent->InitRegions() │ │ (Agent 通过 driver_ 查询内存) │ └────────────────────────────────────┘ ↓ ┌────────────────────────────────────┐ │ 5. 建立拓扑关系 │ │ - Agent 间连接 │ │ - NUMA 亲和性 │ └────────────────────────────────────┘ ↓ ┌────────────────────────────────────┐ │ 6. 加载 Extensions │ │ - AMD 扩展 │ │ - Image 扩展 │ └────────────────────────────────────┘ ↓ ┌────────────────────────────────────┐ │ 7. 初始化工具 │ │ - API Trace │ │ - Profiler │ └────────────────────────────────────┘ ↓ 返回 HSA_STATUS_SUCCESS 关键设计： • agent_drivers_ 是 vector，支持多个 Driver 共存 • 每个 Agent 持有对应类型 Driver 的引用 • Driver 由 Runtime 统一管理生命周期 • 支持异构系统（GPU+AIE 同时存在）

环境变量	作用	取值	示例
`HSA_ENABLE_DEBUG`	启用调试模式	0/1	`export HSA_ENABLE_DEBUG=1`
`HSA_TOOLS_LIB`	加载工具库	库路径	`export HSA_TOOLS_LIB=libhsa-runtime-tools64.so`
`HSA_TOOLS_REPORT_LOAD_FAILURE`	报告工具加载失败	0/1	`export HSA_TOOLS_REPORT_LOAD_FAILURE=1`
`HSA_QUEUE_SIZE`	默认队列大小	数值	`export HSA_QUEUE_SIZE=4096`
`HSA_SCRATCH_MEM`	Scratch 内存大小 (MB)	数值	`export HSA_SCRATCH_MEM=256`
`HSA_RUNNING_KERNEL_MODE`	内核运行模式	0/1	用于调试
`HSA_SVM_GUARD_PAGES`	SVM 保护页	0/1	内存调试
`HSA_CHECK_FLAT_SCRATCH`	检查 Scratch 访问	0/1	性能分析

HSA Runtime 架构概览

📋 本章学习目标

2.1 Runtime 层次结构

2.1.1 三层架构总览

更多推荐文章

相关免费在线工具

2.1.2 公共 API 层 (inc/hsa.h)

2.1.3 核心实现层 (core/runtime/)

2.1.4 Driver 的角色与定位

Driver 在 Runtime 中的组织方式

Driver 的获取与使用

2.1.5 驱动抽象层详解 (Driver + libhsakmt + KFD)

Driver 类接口设计 (`core::Driver`)

Driver 的初始化与 Agent 的关联

libhsakmt 层与 KFD

2.2 主要组件关系图

2.2.1 核心组件交互

2.2.2 对象生命周期

2.2.3 典型调用链示例

2.3 初始化与销毁流程

2.3.1 初始化详细流程

2.3.2 销毁流程

2.3.3 引用计数机制

2.4 Runtime 配置与环境变量

2.4.1 常用环境变量

2.4.2 调试相关变量

2.4.3 性能优化变量

2.4.4 配置文件

2.5 调试与追踪接口

2.5.1 API 追踪工具

2.5.2 内部 Trace 点

2.5.3 Profiling 接口

2.5.4 AMD 扩展调试功能

🎯 本章总结

核心要点回顾

关键数据结构

思考题

更多推荐文章

相关免费在线工具

HSA Runtime 架构概览

📋 本章学习目标

2.1 Runtime 层次结构

2.1.1 三层架构总览

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.1.2 公共 API 层 (inc/hsa.h)

2.1.3 核心实现层 (core/runtime/)

2.1.4 Driver 的角色与定位

Driver 在 Runtime 中的组织方式

Driver 的获取与使用

2.1.5 驱动抽象层详解 (Driver + libhsakmt + KFD)

Driver 类接口设计 (core::Driver)

Driver 的初始化与 Agent 的关联

libhsakmt 层与 KFD

2.2 主要组件关系图

2.2.1 核心组件交互

2.2.2 对象生命周期

2.2.3 典型调用链示例

2.3 初始化与销毁流程

2.3.1 初始化详细流程

2.3.2 销毁流程

2.3.3 引用计数机制

2.4 Runtime 配置与环境变量

2.4.1 常用环境变量

2.4.2 调试相关变量

2.4.3 性能优化变量

2.4.4 配置文件

2.5 调试与追踪接口

2.5.1 API 追踪工具

2.5.2 内部 Trace 点

2.5.3 Profiling 接口

2.5.4 AMD 扩展调试功能

🎯 本章总结

核心要点回顾

关键数据结构

思考题

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

Driver 类接口设计 (`core::Driver`)