一站式电子元器件采购平台

华强商城公众号

一站式电子元器件采购平台

元器件移动商城,随时随地采购

华强商城M站

元器件移动商城,随时随地采购

半导体行业观察第一站!

芯八哥公众号

半导体行业观察第一站!

专注电子产业链,坚持深度原创

华强微电子公众号

专注电子产业链,
坚持深度原创

电子元器件原材料采购信息平台

华强电子网公众号

电子元器件原材料采购
信息平台

瞬变对AI加速卡供电的影响

来源:analog 发布时间:2023-09-18

摘要: 图形处理单元(gpu)、张量处理单元(tpu)和其他类型的专用集成电路(asic)通过支持加速人工智能(AI)训练和推理工作负载所需的并行处理能力,提供高性能计算。

图形处理单元(gpu)、张量处理单元(tpu)和其他类型的专用集成电路(asic)通过支持加速人工智能(AI)训练和推理工作负载所需的并行处理能力,提供高性能计算。

人工智能需要大量的计算能力,尤其是在学习和推理的时候。这将继续推动电力输送网络的界限达到前所未有的新水平。这些高密度工作负载变得更加复杂,具有更高的暂态需求,推动配电网络的每个部分以最大容量执行。AI加速卡的严格功率要求现在正在影响系统性能。在本文中,我们将回顾AI加速卡的配电网络要求,剖析瞬变的影响,并提出来自Devices的满足这些要求的多相供电解决方案。

介绍

人工智能正在革新计算架构,以复制模仿人类大脑的神经网络。似乎人工智能已经无处不在,但实际上,驱动它的技术仍在发展中。专门用于人工智能计算的处理器加速器ic包括gpu、现场可编程门阵列(fpga)、tpu和其他类型的asic。本文将把它们统称为xpu。

随着人工智能技术的部署不断增加,数据中心将继续大量购买人工智能加速卡。根据Gartner的数据,人工智能芯片在2021年的收入总额超过340亿美元,预计到2026年将增长到860亿美元。(1)与普通CPU相比,xpu通过使用大规模并行计算实现,实现了人工智能性能的巨大飞跃。由于其大量的小核,xpu非常适合人工智能工作负载,促进神经网络训练和人工智能推理。然而,它们通常需要相对较大的功耗来进行人工智能计算和数据移动。简单地说,xpu是耗电ic。它们严格的功率要求对AI加速卡提出了新的要求,现在会影响系统性能。在本文中,我们将回顾AI加速卡的供电网络要求,并提出满足这些严格要求的多相供电解决方案。

人工智能带来的电力传输挑战

人工智能有很多东西,但节能不是其中之一。当人工智能工作时,尤其是处理深度学习和推理等人工智能工作负载时,它需要极高的计算能力。在系统层面,人工智能加速器在提供近乎即时的结果方面发挥着关键作用,使其具有价值。所有的xpu都有多个由数十亿晶体管组成的高端核心,消耗数百安培。这些xpu上的核心电压(V(core))已经降低到低于1.0 V的水平。图1显示了AI加速卡的通用框图。本文将重点介绍多相控制器和相应的功率级集成电路。


图1所示 通用AI加速卡的框图。

在AI加速卡上遇到的峰值电流密度对于任何主板来说都变得非常沉重。工作负载的高度动态特性和极高的电流瞬变会导致非常高的di/dt和持续数微秒的尖峰电压瞬变,这是高度破坏性的,可能会对xPU造成潜在的损害。由于平均人工智能工作负载持续时间如此之长,去耦电容器无法在整个时间内提供满足即时需求的能量。本文的下一部分将介绍一个多相负载点(PoL)解决方案提案,该方案将消除典型的人工智能加速器的瞬态,从而在配电网络中产生应力。但首先,让我们讨论一下人工智能带来的电源设计挑战。

AI引入了新的电源设计挑战

目前,人工智能的电力需求远远超过了传统的电力输送网络的能力。xPU电压调节器(VRs)的要求与标准PoL调节器有很大不同。在某些应用中,xPU在1v电压下的输出功率超过1000a。重要的是,电源非常稳定,产生非常小的噪声,同时消除电压瞬变的所有可能性,这可能导致xPU内部的误触发。高性能AI加速器VR PoL的设计,其电流需求惊人,必须满足某些关键要求。

电压尖峰和瞬态管理


人工智能加速卡的关键要求之一是,VR架构必须能够提供卓越的瞬态电压管理。向任何系统输送千瓦级的电力始终是一个一级挑战。输出电压(包括容差、纹波和负载瞬态下降和峰值)必须保持在xPU的最小电压以上,以避免系统挂起,也必须保持在xPU的最大电压以下,以避免xPU损坏。这些卡的瞬时功率峰值可以要求最大热功率目标的2倍或更多。

这里重要的是,PoL环路带宽足够灵活,足以处理所见的快速瞬变类型。带宽越高,环路响应越快,电压偏差越小。实现快速暂态电源轨的最直接方法之一是选择具有快速暂态性能的稳压器。AI V(CORE)系列集成电路具有极低的频率输出噪声,快速的瞬态响应和高效率。加上负载线支持,AI电源芯片组在帮助电源设计人员管理AI工作负载引起的瞬变和峰值方面做得很好。

I(2)长功率路径的R损耗和热管理


随着AI xPU处理器的电流不断增加,PoL的功率输送解决方案的密度已成为一个关键因素。在不担心分散的热量影响芯片可靠性和导致热失控的情况下,向xPU的每个部分可靠地供电变得极其困难。换句话说,热管理是设计这种高瓦数电源的更重要的挑战之一。传统的供电方法将稳压器放在xPU的一侧,这样供电就可以横向地输送到处理器。即使这些走线中最小的电阻也会导致不可接受的电压(I(2)R)下降。PCB电源平面电阻上的压降与xPU电流成比例地增加。这表示在VR和BGA引脚之间有几厘米的PCB电源走线,这是发生大量损耗的地方。这种损耗在PCB铜电源平面上已经成为计算稳压器设计效率和性能的最主要因素。使用集成了电流和温度电路模块的单片功率级IC,可以大大减少PCB上所需的大电流走线数量,以实现传统的3芯片(分立)供电解决方案。

价值主张:MAX16602 + MAX20790 +耦合电感


人工智能稳压器的精度变得更加严格。效率和规模是重中之重。性能和功率损耗也受到严格审查。如前一节所述,解决AI加速卡VR设计问题已经成为一项艰巨的任务。设计人员非常清楚,如果不处理不必要的瞬态效应,就无法满足产生所需电流的大阶跃。解决这些瞬态效应还需要某种类型的高精度动态电压定位或负载线方案。在人工智能市场投入了大量资金,并为48v和12v系统提供了完整的解决方案组合。本文的这一部分提出了AI多相电源芯片组,MAX16602多相控制器和MAX20790功率级,以及我们的专利耦合电感器(CL)技术,以帮助解决这些AI PoL设计挑战。图2显示了8相MAX16602CL8_EV设计的MAX16602、MAX20790和CL高层框图连接。这种相对简洁的设计实现了每相约88 APK的高电流输送能力。内部补偿和先进的控制算法,加上功率级的集成电流传感电路和耦合电感,使其成为一个小型的解决方案,具有一流的效率。


图2 采用高集成电源芯片组的8相VR设计可实现高密度设计,减少外部连接

高集成度的单片智能功率级集成电路


MAX20790是一款功能丰富的智能功率级IC,设计用于与MAX16602(以及产品组合中的其他几个控制器)一起实现高密度多相稳压器。这是一个单片集成,几乎消除了分立设计中fet和驱动器之间的寄生电阻和电感,实现了高开关速度和显著低于传统实现的功耗损耗。如果检测到交换节点(V(X))故障,则电源级立即关闭,并将故障ID发送给控制器。这种智能电源级IC还包括芯片上的电流传感器。这种电流感应电路块远优于使用电感直流电阻的方法。众所周知,DCR传感是不准确的,需要对当前测量进行温度补偿才能被信任。

控制器集成电路


MAX16602是xPU V(CORE) vr的多相控制器。该IC为AI xpu供电提供了高密度、灵活、可扩展的解决方案。该器件支持脉宽调制(PWM)并行控制多达16个相位。该IC的架构简化了设计,减少了组件数量,实现了先进的电源管理和遥测,并在全负载范围内增加了节能。自动减相实现在整个负载范围内保持高效率。完整的芯片组是一个高效的多相降压转换器,具有广泛的状态和参数测量功能。通过串行PMBus 接口设置和监控保护和关机参数,包括在电源级ic中收集的故障。

以下是控制器中支持的其他几个关键功能,这些功能对于任何AI供电实现都很重要。

高级调制方案

MAX16602包括一个先进的调制方案(AMS),以提供改进的瞬态响应。调制方案允许以最小的延迟打开和关闭相位。根据负载需求,可在负载增加时同时开启多个相位,或在负载释放时立即关闭。启用AMS后,系统闭环带宽可以在没有相位裕度损失的情况下扩展。这使得PoL能够更好地响应AI vr所经历的即时和动态电流需求类型。

载重线控制

负载线允许V(CORE)根据输出电流在其最小值和最大值之间移动。它基本上将V(CORE)设置为轻负载高,重负载低。主要原因是允许控制回路处理更高的负载电流(这是使事情正常工作所必需的)。该控制器在整个输出电流范围内提供精确的输出负载线控制。输出电压定位使用来自功率级集成电路的无损电流检测信号进行,该信号反馈给控制器。通过对电压控制环误差放大器的直流增益进行数字编程,在控制器中设定负载线。在控制器的EC表和数据表6中提供了广泛的直流负载线轮廓,从0.105 毫欧到0.979 毫欧。图3显示了在800 a /µs转换速率下,负载步长为40 a至360 a的16相PoL设计的瞬态图。结果显示最小的超调。

总的来说,多相电源转换和PoL产品提供高效率和高功率密度。图5显示了我们的16相MAX16602 + MAX20790 + CLH1110-4评估板的带有偏置和电感损耗的效率图。为各种AI加速器应用提供稳压器和其他功率转换解决方案。我们的多相控制器和集成电源级解决方案使客户能够满足当今人工智能应用中最严格的动态xPU电源要求和设计挑战。


图3 16相VR在40a ~ 360a阶跃负载下,800 a /µs转换速率的暂态图

在设计中加入有源电压定位,减轻了对负载暂态响应的要求,更好地利用了总xPU容差窗口。负载线控制有助于降低给定阶跃负载的峰对峰输出电压偏差,同时可以减少输出轨上的整体电容量。降低了总电压波动,降低了xPU崩溃或损坏的风险。请注意,负载线电路块可以在MAX16602中禁用。

耦合电感的好处

十多年来一直在投资其专利CL技术。该技术可实现更高的密度、更大的带宽、更快的瞬态解决方案,与离散实现相比,效率提高50%,磁性降低1.82倍。CL有效地在稳态时电感大,瞬态时电感小,除了电感尺寸更小之外,还可以节省C(OUT)。(2)图4显示了多相VR设计中常用的一系列耦合电感。


图4 多相虚拟现实设计中常用的一系列耦合电感器

根据设计规格和优先级,耦合电感电流纹波消除的好处可以换取更小的尺寸或更高的效率。(1)大系统的好处和区别在于AI PoL设计人员可以使用CL来帮助他们相对容易地实现小的总VR占地解决方案。几个知名和流行的磁性供应商有一个免费的CL许可证,可以为我们提供所需部件的多个来源。

顶部冷却封装

顶部冷却为表面贴装封装提供了另一种散热途径。MAX16602和MAX20790都是倒装芯片四平面无引线(FCQFN)封装,带有暴露的顶部热垫。FCQFN是一种先进的封装,提供一流的热性能,设计师将会欣赏。这种无引线封装不仅可以减少寄生电感,还可以直接从器件的结向周围环境散热。MAX20790的结壳顶(西塔(JC-TOP))热阻为0.25°C/W。利用AI电源设计的顶部冷却配置,可以提高系统的热性能和设计灵活性。


图5 一种16相AI VR评估板设计效率图

垂直的权力

随着xpu处理复杂AI功能的出现,该行业的功耗急剧增加。具有高达650 A连续电流和超过1000 A峰值电流输出能力的vr已经变得普遍。为人工智能处理器供电的挑战在于保持效率。传统的电源架构无法跟上这些耗电的AI xpu的步伐。VR芯片制造商和架构师正在从根本上寻找不同的供电方式。业界正在讨论的为AI xpu供电的新趋势被称为垂直供电,也称为反向供电。

VRs必须尽可能靠近负载输入xPU电源引脚,以便进行大电流供电。我们无法通过传统的横向电力输送方式实现这一目标。垂直供电移动和重新定位电源调节器直接在处理器本身的下方,消除了所有的损失,一个会在PCB上。该结构包括将电源转换器、电源级、电容器和磁铁放置在PCB的背面,并通过通孔垂直向xPU输送电源。换句话说,电流从xPU BGA阵列的下方垂直传输。这是一种缩短长度的垂直路径,可以显著降低阻抗并消除损耗。图6显示了安装在PCB另一侧的xPU下方的垂直电源模块架构。这只是为了说明的目的。拥有广泛的AI xPU V(CORE)解决方案组合来解决这些问题。我们的电源解决方案以最小的外形实现同类最佳的效率。多相控制器MAX16602和智能单片功率级MAX20790的组合提供了业界最高的功率转换效率、最快的瞬态响应和最准确的遥测报告。有关这些电源芯片组的更多详细信息或购买MAX16602CL8评估套件,请访问此处。


图6 垂直电源模块架构(仅用于说明目的)

构建垂直电源解决方案的挑战部分包括能够解决模块重量和安装问题。在PCB另一侧的xPU下方,也是用于能量存储以满足瞬时能量需求的高频去耦电容器的主要位置。垂直供电与CL技术相结合,可实现更高的电流密度、功率密度和更快的瞬态性能。垂直电源为PoL制造商提供了新的创新机会,并以自己的方式继续支持摩尔定律的进步。

结论

为高性能AI加速卡设计VR PoL是一项复杂的任务,特别是在当前先进xpu所要求的电流水平和电压精度方面的功率要求不断提高的情况下。

本文表明,xPU VR的要求与标准PoL调节器有很大不同。xPU导轨具有极快的负载变化,需要动态电压定位或负载线,并且必须很小。

参考文献

(1) Gartner,“预测:全球AI半导体,2021-2027”,2023年4月。

(2)“利用耦合电感器的优势”,Devices, Inc。

声明:本文观点仅代表作者本人,不代表华强商城的观点和立场。如有侵权或者其他问题,请联系本站修改或删除。

社群二维码

关注“华强商城“微信公众号

调查问卷

请问您是:

您希望看到什么内容: