Flink 外部资源框架：作业原生申请 GPU/FPGA 资源

Flink 外部资源框架：作业原生申请 GPU/FPGA 资源 | 极客日志

external-resources: gpu;fpga

external-resources: gpu;fpga
external-resource.gpu.driver-factory.class: org.apache.flink.externalresource.gpu.GPUDriverFactory
external-resource.gpu.amount: 2
external-resource.gpu.param.discovery-script.args: --enable-coordination-mode
external-resource.fpga.driver-factory.class: org.apache.flink.externalresource.fpga.FPGADriverFactory
external-resource.fpga.amount: 1
external-resource.fpga.yarn.config-key: yarn.io/fpga

public class ExternalResourceMapFunction extends RichMapFunction<String, String> {
    private static final String RESOURCE_NAME = "gpu";

    @Override
    public String map(String value) throws Exception {
        Set<ExternalResourceInfo> infos = getRuntimeContext().getExternalResourceInfos(RESOURCE_NAME);
        List<String> indices = new ArrayList<>();
        for (ExternalResourceInfo info : infos) {
            info.getProperty("index").ifPresent(indices::add); // GPU 插件常用属性 key：index
        }
        // 这里用 indices 做设备绑定，比如选择一张卡 set CUDA_VISIBLE_DEVICES 或初始化推理引擎
        return value;
    }
}

external-resources: gpu
external-resource.gpu.driver-factory.class: org.apache.flink.externalresource.gpu.GPUDriverFactory
external-resource.gpu.amount: 2
# Kubernetes
external-resource.gpu.kubernetes.config-key: nvidia.com/gpu
# YARN
external-resource.gpu.yarn.config-key: yarn.io/gpu

external-resource.gpu.param.discovery-script.path: plugins/external-resource-gpu/nvidia-gpu-discovery.sh

external-resource.gpu.param.discovery-script.args: --enable-coordination-mode

public class FPGAInfo implements ExternalResourceInfo {
    @Override
    public Optional<String> getProperty(String key) {
        // 根据 key 返回属性，比如 "device", "pci", "address" 等
        return Optional.empty();
    }

    @Override
    public Collection<String> getKeys() {
        return List.of("device", "pci", "address");
    }
}

public class FPGADriver implements ExternalResourceDriver {
    @Override
    public Set<ExternalResourceInfo> retrieveResourceInfo(long amount) {
        // 发现并返回 FPGA 信息集合
        return Set.of(/* ... */);
    }
}

public class FPGADriverFactory implements ExternalResourceDriverFactory {
    @Override
    public ExternalResourceDriver createExternalResourceDriver(Configuration config) {
        return new FPGADriver();
    }
}

Flink 外部资源框架：作业原生申请 GPU/FPGA 资源

1. 外部资源框架到底做了什么

2. 适用场景与边界

3. 启用流程：三步走

3.1 准备外部资源插件（plugins/）

3.2 配置 external-resources 与每个资源的参数

3.3 在算子里使用 RuntimeContext 获取资源信息

4. Kubernetes / YARN / Standalone：三种环境的差异

4.1 Kubernetes

4.2 YARN

4.3 Standalone

5. GPU 插件：最常用也最值得踩坑的一块

5.1 必要配置（GPU）

5.2 discovery script（GPU 发现脚本）

5.3 脚本契约（你写自定义脚本时必须遵守）

5.4 协调模式：解决'同机多 TM 抢同一 GPU'

6. 自定义资源插件：你要支持 FPGA/自研加速卡怎么做

7. 排障清单：最常见的 6 个'为什么拿不到 GPU'

8. 最佳实践建议

更多推荐文章

相关免费在线工具

Flink 外部资源框架：作业原生申请 GPU/FPGA 资源

1. 外部资源框架到底做了什么

2. 适用场景与边界

3. 启用流程：三步走

3.1 准备外部资源插件（plugins/）

3.2 配置 external-resources 与每个资源的参数

3.3 在算子里使用 RuntimeContext 获取资源信息

4. Kubernetes / YARN / Standalone：三种环境的差异

4.1 Kubernetes

4.2 YARN

4.3 Standalone

5. GPU 插件：最常用也最值得踩坑的一块

5.1 必要配置（GPU）

5.2 discovery script（GPU 发现脚本）

5.3 脚本契约（你写自定义脚本时必须遵守）

5.4 协调模式：解决'同机多 TM 抢同一 GPU'

6. 自定义资源插件：你要支持 FPGA/自研加速卡怎么做

7. 排障清单：最常见的 6 个'为什么拿不到 GPU'

8. 最佳实践建议

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具