2024 大模型秋招面试高频问题与解答总结

Triton (OpenAI 版)

今年 Triton 确实挺火，互联网大厂想用它写算子，比 CUDA 迭代周期更短；硬件厂想用它的 DSL 来推广自己的软件栈和生态。

推荐一些学习资源：

谈谈对 OpenAI Triton 的一些理解，帮助大家建立一个宏观印象

如何入门 OpenAI Triton 编程？帮助了解更多关于语法上的信息

浅析 Triton 执行流程，帮助初学者大致明白一段 Python 程序如何进入 Triton pipeline，然后跑起来。

挖坑：有一些基础的认识后，大家就可以在 Triton 中各取所需了。作为一个 MLIR Programmer，我还希望了解每个 transform pass 和每一步 conversion 是怎么做的、作用等，抽空好好读读源码。

1. 你是怎么做 triton kernel 优化的

不管啥 kernel，到我手上都是经过'两步走'来优化：

浅层优化：通过替换算子、(用 atomic op) 合并 kernel、拆循环、调 config 等方式实现初步优化。

深层优化：分析下降所得 IR，使用 perf 工具，对照算子库实现等方式，优化 kernel 的下降行为。

2024 大模型秋招面试示意图

大部分情况下，'第一步'走完性能就接近算子库了，还是大哥们后续 codegen 的 pass 太顶级了，我成为了无情的 config 添加器。

关于这部分更详细的可以看看鄙人的记录，这里详细一些 ref：[Triton] Kernel Optim

当'第一步'走完性能还是和算子库有距离，那就继续'第二步'，上 perf！看 ir！看看访存是否连续，得到的汇编是否符合预期等。（自己总有看不懂的时候，直接叫大哥）

分解出优化点，在 ir 下降过程加点美味的 pattern，大部分情况还是得看看算子库的大哥们是咋写的 kernel，然后（抄一下）启发一下编译器的 lowering 过程。如果还是打不过怎么办，这时候就真得看看 IO 这些是否打得比较足了，或者换过服务器多跑几次（别试，一般没用）。

2. triton 的下降流程，讲讲你对 triton 中 layout 的理解

官方：triton-lang -> triton ir -> triton gpu dialect -> llvmir -> ptx

其中 llvm ir 更标准地说法应该是 nvvm ir，相比官方的 llvm ir 要额外扩展了一些 hardware intrinsic 和 conversion。想了解可以看 llvm project 中的 llvm/include/llvm/IR/IntrinsicsNVVM.td 和 llvm/lib/Target/NVPTX/。

ptx 后序会根据硬件信息转为 sass。

2024 大模型秋招面试示意图

triton 中的 layout 在 triton gpu dialect 才第一次出现，作为 attr 辅助 op 的 conversion 和 transform，主要分为两种：distributed layout 和 shared layout。

distributed layout：描述 tensor 应该如何被 thread 访问，又分为 block layout、mma layout 和 dotoperand layout

block layout：使用 AxisInfoAnalysis 获得 load 和 store 等指针操作 op 具体的操作 tensor(shape、layout 信息等) 以及连续性信息，这个信息后序会用来在 memory-coalesce (访存合并)。

mma layout 和 dotoperand layout：我理解都是描述了特定 op 的 operand 的数据布局，以指导后序 op 的 lowering。

shared layout：shared layout 描述了 share mem 中可能被同时访问的处于同一个 bank 的数据。share mem 中的每个 bank 会会单独相应内存访问请求，所以同一时间内，若多个 thread 访问的数据处于同一个 bank 就会产出 bank conflict，导致吞吐异常。所以根据 shared layout 进行 layout-swizzling，调整相关的数据布局。

2024 大模型秋招面试高频问题与解答总结

Triton (OpenAI 版)

1. 你是怎么做 triton kernel 优化的

2. triton 的下降流程，讲讲你对 triton 中 layout 的理解

更多推荐文章

相关免费在线工具

3. 支持 triton 的好处，和官网的 triton 有何不同

MLIR

1. mlir codegen 这条路更适合处理哪类任务？

1. 对 SIMD 硬件的优化和 SIMT 硬件的优化(or codegen) 有什么异同

3. 算子融合先 tile 再 fuse 还是先 fuse 再 tile

4. mlir codegen 这条路针对推理和训练有什么不同么

5. 软流水展开的循环一般是哪一级

6. mlir 中 tensor 和 memref 抽象设计理念和异同

7. linalg dialect 的设计理念

8. mlir 中一些概念

9. 写一个图的拓扑排序

LLM

1. 请简单讲讲你了解的推理中常见的优化技术

2. attention 相关问题

Arch

1. 讲讲 gpu 的 SM

C++

Coding

总结

更多推荐文章

相关免费在线工具

2024 大模型秋招面试高频问题与解答总结

Triton (OpenAI 版)

1. 你是怎么做 triton kernel 优化的

2. triton 的下降流程，讲讲你对 triton 中 layout 的理解

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3. 支持 triton 的好处，和官网的 triton 有何不同

MLIR

1. mlir codegen 这条路更适合处理哪类任务？

1. 对 SIMD 硬件的优化 和 SIMT 硬件的优化(or codegen) 有什么异同

3. 算子融合先 tile 再 fuse 还是先 fuse 再 tile

4. mlir codegen 这条路针对推理和训练有什么不同么

5. 软流水展开的循环一般是哪一级

6. mlir 中 tensor 和 memref 抽象设计理念和异同

7. linalg dialect 的设计理念

8. mlir 中一些概念

9. 写一个图的拓扑排序

LLM

1. 请简单讲讲你了解的推理中常见的优化技术

2. attention 相关问题

Arch

1. 讲讲 gpu 的 SM

C++

Coding

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

1. 对 SIMD 硬件的优化和 SIMT 硬件的优化(or codegen) 有什么异同