AI 算力提升下的能耗与散热挑战及电源解决方案
随着人工智能技术的广泛应用,从智能手机到自动驾驶汽车,从智能家居到工业自动化,AI 供电芯片的需求量正呈爆炸式增长。它不仅为 AI 系统提供稳定的电力供应,确保系统的正常运行,而且还肩负着节能减排、降低能耗的重任。
然而随着算力需求的提升,AI 设备的能耗、散热等问题凸显,这无疑给 AI 供电芯片带来了新的挑战。如何实现高效率、低功耗、持续稳定的供电成为了业界关注的焦点。本文将深入探讨当前 AI 基础设施面临的三大核心挑战,并分析先进的电源管理方案如何应对这些难题。
一、能耗'突飞猛进':算力比拼加速,能耗日益攀升
算力核心设备由传统的 CPU 向 GPU 的转移,不仅提升了计算效率,更使得复杂的数据处理和深度学习模型得以实现。然而,高性能往往伴随着高能耗。在追求更快计算速度的同时,GPU 的能耗也在不断上升,给数据中心和服务器带来了巨大的能源压力。
根据荷兰数据科学家 Alex de Vries 在学术期刊《Joule》上发表的研究显示,按照当前趋势,到 2027 年,整个人工智能行业每年将消耗 85 至 134 太瓦时的电力(1 太瓦时=10 亿千瓦时)。这一数据揭示了 AI 训练对能源基础设施的巨大需求。随着大模型参数量指数级增长,单次推理或训练的功耗显著增加,传统的配电架构已难以满足高效能比的要求。
在数据中心层面,PUE(Power Usage Effectiveness)指标成为衡量能效的关键。降低 PUE 意味着减少非计算设备的能耗占比,而优化供电链路是其中的核心环节。电源转换效率的提升直接决定了运营成本的降低和碳排放的减少。
二、散热'力不从心':高性能 AI 芯片的烫手难题
高性能的 AI 芯片在运行过程中会产生大量热量,如果不能及时有效地散热,不仅会影响设备的稳定运行,还可能缩短其使用寿命,制约 AI 算力的进一步增长。热设计功耗(TDP)是衡量芯片发热量的重要指标。
未来,单颗高性能 AI 芯片的热设计功耗将突破 1000W,达到了传统风冷散热的极限。当功率密度超过一定阈值,空气对流已无法有效带走热量,导致热点积聚,进而引发降频甚至硬件损坏。因此,各大公司纷纷投入研发,探索更有效的散热解决方案。
液冷技术逐渐成为主流方向。相比风冷,液冷的比热容更大,导热效率更高,能够支持更高的机柜功率密度。行业巨头们正在推进的浸没式液冷和冷板式液冷技术,旨在解决高密度计算场景下的散热瓶颈。电源模块作为发热源之一,其散热设计也必须兼容这些新型冷却方式。
三、可靠性'摇摆不定':大模型训练,AI 芯片一损俱损
AI 应用对芯片的性能与可靠性要求非常高。为了完成一个大模型的训练任务,通常需要几千张甚至几万张计算卡进行级联,提供充足的算力。这种大规模并行计算环境对供电稳定性提出了极高要求。
如果有一张卡出了问题,或者供电出现波动,那么整个大模型的训练都会受到影响,造成巨大的时间和资源浪费。如何定位到失效的板卡也是非常费时费力的工作,严重影响训练的效率。此外,AI 负载具有突发性强的特点,电源系统必须具备极快的瞬态响应能力,以应对负载的剧烈变化,防止电压跌落导致系统复位。
四、MPS AI 电源解决方案的技术突破
MPS(Monolithic Power Systems)深耕计算领域多年,从笔记本、台式机到自动计算平台,再到数据中心服务器,与各大平台都有紧密的合作。随着传统数据中心通过集成 AI 技术来实现智能化升级,MPS 也在快速迭代电源方案,为行业和客户提供高品质、可靠的 AI 电源解决方案,适用于 AI 推理卡、训练卡、边缘计算设备、超算服务器等各类应用场景。
1. 体量更紧凑、功率密度更高、配电损耗更低
MPS 的 AI 电源方案采用创新设计,体量更紧凑,配电损耗更低,使数据中心在给定机柜范围内的计算能力得以提升。
相比竞争对手的方案,MPS 的功率转换技术在主板上占用的空间更小,这样所有处理器能更紧密地结合为一体,在更小的空间内实现更强的计算能力。下图展示了高度集成的数字多相电源模块概念。

MPS 专注改善数据中心的功率密度,因为数据中心面临着人工智能等新计算应用的更大功率需求。以创新手段提升功率密度意味着减小配电损耗,从而降低数据中心的总运营成本、单次计算输出的总成本以及碳排放。而机柜数量减少后,数据中心的物理占用空间也能最大限度地缩减。
130A、两相、非隔离式降压电源模块 MPC22167-130 是 MPS Intelli-Module™系列的最新产品,它将 DrMOS、电感和其他无源元件集成到单个封装中,不仅占位面积小,功率密度还提高了 2.5 倍。而且,它允许将多相稳压器(VR)放置在更靠近处理器的位置,从而减少了配电网络 (PDN) 的损耗。
多个 MPC22167-130 器件可与第一级电源模块配合使用,以支持端到端的电源解决方案,同时能够满足 AI 处理器的高功率要求。该参考设计可应用于 OAM 形态的 AI 处理器,它采用 MPC22167-130 支持 2000A 的最大输出电流 (IOUT),其中第二级方案的设计采用了 MPC22167-130 与数字 16 相控制器 MP2891 的组合方案。


