LLM 训练性能基准测试与优化策略

随着 ChatGPT 的现象级走红，引领了 AI 大模型时代的变革，从而导致 AI 算力日益紧缺。与此同时，中美贸易战以及美国对华进行 AI 芯片相关的制裁导致 AI 算力的国产化适配势在必行。本文分享国产 AI 芯片、使用国产 AI 框架 Mindformers 基于昇腾 910 训练大模型，使用 MindIE 进行大模型服务化等相关技术。

指标名称	单位	指标含义
吞吐率	samples/s、tokens/s	单位时间（例如 1s）内处理的 Token 数/训练样本数
单步时间	s	执行一个 step 所花费的时间
线性度、加速比	values	单卡训练扩展到多卡，单机拓展到集群的效率度量指标
内存占用	百分比	-
带宽占比	百分比	-
训练效率	tokens/day	-
浮点运算	TFLOPS	每秒浮点运算次数，是计算设备的计算性能指标
模型算力利用率（Model FLOPs Utilization，MFU）	百分比	模型一次前反向计算消耗的矩阵算力与机器算力的比值
硬件算力利用率（Hardware FLOPs Utilization，HFU）	百分比	考虑重计算后，模型一次前反向计算消耗的矩阵算力与机器算力的比值

LLM 训练性能基准测试与优化策略

训练性能的定义

训练性能指标

FLOPS 与 FLOPs 的不同之处

吞吐量

线性度

算力利用率

MFU

HFU

通信性能指标

流水线并行效率指标

分布式训练并行策略及优化技术

基于昇腾 910B3 进行 LLM 训练性能测试

总结与建议

更多推荐文章

相关免费在线工具

LLM 训练性能基准测试与优化策略

训练性能的定义

训练性能指标

FLOPS 与 FLOPs 的不同之处

吞吐量

线性度

算力利用率

MFU

HFU

通信性能指标

流水线并行效率指标

分布式训练并行策略及优化技术

基于昇腾 910B3 进行 LLM 训练性能测试

总结与建议

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具