NEWS INFORMATION新闻动态

关注微信公众号

首页  >   新闻动态  >   工作组动态

ETH-X超节点:AI整机柜硬件设计探索

2024-09-24

随着人工智能技术的飞速发展,特别是AI大模型的快速崛起,对计算资源的需求呈现出指数级的增长态势。AI大模型运行与训练过程所需处理的数据规模庞大,对算力提出了较高的要求。当前,传统的计算模式面临严峻考验,单个处理器性能的边际效益递减,逼近物理层面的极限,难以满足AI大模型对算力的持续增长需求。同时,通过简单增加服务器数量以实现计算集群的横向扩展(Scale Out)策略,也遭遇了效率与可扩展性的瓶颈,包括成本、数据同步与能耗等方面的挑战,阻碍了大规模并行运算的高效执行。

在此背景下,ETH-X超节点以太网项目应运而生,其通过技术创新和行业协作,构建开放、可扩展的高带宽域(HBD)超节点系统样机。该系统旨在探索AI算力提升的新途径,为构建ETH-X超节点互联的开放协作产业生态提供支撑。

AI Rack整机柜是ETH-X超节点实现的具体方式,具备高算力密度、高互联带宽、高功率密度和高能效等关键因素,为AI大模型提供所需的计算资源,推动AI技术发展和应用。

单个整机柜需要支持至少32计算节点及以上GPU-GPU的Scale Up系统,以HBD超节点为单位,通过scale-up接口搭建更大规模高带宽域,并依托传统Scale Out扩展方式形成更大规模、更高效的算力集群。超节点Scale Up的核心需求是超大带宽(HB)、更高的能效比和TCO。

微信图片_20240924164637.png

图1 HBD二层组网

1.ETH-X超节点整体架构

AI整机柜内Scale-up网络采用以太网协议,目前Serdes速率最高支持112Gbps,未来支持到224Gbps。典型的整机柜内64个GPU互联组网拓扑示意图如下图所示:

微信图片_20240924164754.png

图2 典型的64节点组网拓扑图

GPU单卡带宽,单机柜支持的最大GPU数量,交换芯片容量和交换芯片数量的关系如下:

  GPU单卡带宽* N(单柜支持最大GPU数量)=

M(交换芯片数量)*交换芯片容量/2。

例如:

  • GPU单卡带宽=4.8Tbs,N=64,交换芯片容量=51.2Tbps,则M(交换芯片数量)=12;

  • GPU单卡带宽=3.2Tbps,N=64,交换芯片容量=51.2Tbps,则M(交换芯片数量)=8;

  • GPU单卡带宽=3.2Tbps,N=64,交换芯片容量=25.6Tbps,则M(交换芯片数量)=16;

  • 其中每个交换芯片的上下行收敛比为1:1,支持Scale-up网络扩展HBD Size到128~1024。

    微信图片_20240924165018.png

图3 不同厂家GPU节点配置图

2.计算节点设计参考

计算节点内部包含1个单路CPU主板,承载PCIe Switch和4个GPU的Carrier board,集成4个400G网口的NIC板、存储背板、电源分配版、BMC管理板以及漏液检测电路设计等。单点内GPU及CPU采用液冷散热,NIC、SSD及IO部分采用4056风扇散热。

微信图片_20240924165209.png

图4 计算节点系统框图

微信图片_20240924165304.png

图5 计算节点示意图

3.交换节点设计参考

交换节点包含1个交换板、CPU板、管理BMC板、Baseboard、电源分配板PDB以及漏液检测电路设计等。交换芯片采用液冷设计方案,其它CPU板、BMC等采用4056风扇散热。

微信图片_20240924165411.png

图6 交换节点系统框图

微信图片_20240924165524.png

图7 交换节点示意图

系统支持单交换芯片和多交换芯片设计,取决于交换芯片容量和系统拓扑。在交换板背板高速连接器的选型上要考虑占用左右空间的大小,其差分对数一般为512,需留出空间给风冷器件散热。

4.整机柜关键组件

4.1Cable Tray

HBD域内的GPU与交换芯片之间采用高速铜缆组成Cable Tray。相对于光纤解决方案,机柜内采用铜缆解决方案具有高可靠性,成本低、布线便捷的优点,未来AI服务器内部使用铜缆直连技术或将成为主流。同时Cable tray上线缆众多,一般配有2套背板总线,分置于Busbar左/右两侧,cable tray需实现各个节点的盲插功能。另外,Cable tray上的高速连接器结构设计需具备导向及浮动结构,确保与节点精确对位、连接。背板总线由线缆厂商连接、装配、测试完成后整体交付。

微信图片_20240924165706.png

图8 Cable Tray

机柜内HBD域内高速互联cable线数量=单个GPU Serdes数量*2*N(单柜支持最大GPU数量)。

4.2Busbar

微信图片_20240924165827.png

图9 Busbar示意图

1)Busbar安装于机柜上,为各节点提供电源;

2)导体横截面积和长度可以根据系统最大功耗和节点配置进行定制;

3)接触界面遵循ORV3 Busbar规范。

4.3Manifold&快接头

微信图片_20240924165956.png

图10 Manifold示意图

1)Manifold上装有与节点端配合的盲插快接头,每个快接头配有导向PIN,以确保与节点之间的精确连接;

2)与GPU节点&交换节点连接的快接头均为UQDB型;

3)Manifold设计上接头能兼容多种型号。

在选型快接头时,根据具体应用场景的不同,选择合适的型号至关重要。针对需频繁插拔且对定位精度要求较高的盲插场景,UQDB型快接头凭借其独特的自动校准设计和顺畅的盲插性能,成为首选。该型号不仅确保了连接的稳固性,还提高了操作的便捷性和效率,同时该盲插接头结合节点后端的浮动模块,更大程度保障了盲插场景下的可靠性。在机箱内部空间有限、对密封性和连接稳定性有严格要求的环境下,UQD型快接头则以其紧凑的结构、优异的密封性能以及可靠的流体连接能力,成为机箱内部快接头的理想选择。两款快接头各具特色,满足了不同应用场景下的多样化需求。

4.4POWER SHELF

Power Shelf为整个机架中的所有节点提供电力供应。鉴于节点数量众多且功率密度高,因此Power Shelf的选型至关重要。具体指标要求如下:

1)使用PSU自带的风扇散热;

2)220V或380V AC输入、54V DC输出

3)支持N+1冗余设计;PSU个数可根据整机功耗进行选配。

4)需要具有均流功能

需要有管理模块,能够对电源的健康状态进行监控,支持远程重启,FW升级等操作。

微信图片_20240924170350.png

图11  Power shelf示意图

5.关键技术设计考量

5.1SI设计

计算节点与交换节点之间的高速SERDES将达到112Gbps的速率,而用于连接这些节点的电缆最长可达1.2米。为保证高速SERDES的信号完整性,一方面需要通过仿真来计算高速链路的插入损耗,并选择高性能的电缆。同时,还需要关注PCB(印刷电路板)材料以及高速连接器的选择。

微信图片_20240924170522.png

图12 112G高速通道

5.1.1.112G高速链路插损分配

通过高速信号仿真,需详细计算PCB走线损耗、连接器损耗、过孔损耗以及电缆损耗,以确保整个链路的总插入损耗符合《IEEE 802.3ck_D3p3》标准的要求。建议在完成系统优化后,保留至少3dB的插入损耗裕量。

5.1.2.PCB材料选型考虑

目前行业内112Gbps高速信号设计主要采用M8等级,并搭配超低粗糙度(HVLP)铜箔。通过仿真设计,推荐使用M8等级材料作为GPU载体板(Carrier Board)及交换板(Switch Board)的PCB材料,以满足112G高速信号链路设计的裕量需求。在内层铜表面处理方面,需要采用高级别的棕化处理。

5.1.3.高速连接器的选择

在信号完整性(SI)方面,连接器选型主要关注其无源电气性能,包括插入损耗、回波损耗、阻抗匹配和串扰等。在选择高速连接器时,除了考虑连接器本身的性能外,还需关注连接器组装的可靠性。如何保障几千对高速信号线缆能够有效到位的插入连接器,在产品量产条件下,还能够得到稳定的SI性能,需要Cable Tray厂家和系统设计厂家紧密合作,共同提出有效的解决方案。

5.2散热设计

微信图片_20240924170802.png

图13 液冷整机柜散热整体布局

AI整机柜散热的整体要求如下:

1)系统冷却方式:风液混合冷却,液冷占比85%以上;

2)系统功耗和流量设计:根据系统配置计算整机最大功耗并匹配流量设计;

3)系统流量分配:通过manifold为系统各节点分配流量,通过仿真分配计算节点和交换节点的流量;

4)具备单节点防泄漏设计方案(计算节点&交换节点)。

5)具备机柜防泄漏设计方案。

5.2.1.计算和交换节点散热设计

在计算节点中,对于功耗较高的GPU芯片和CPU芯片采用了冷板液冷的方式,而对于NIC(网络接口控制器)、SSD硬盘、内存条以及PCIe Switch等功耗较低的组件则采用传统的风冷方式。同样地,在交换节点中,对于功耗较大的Switch芯片也采用了冷板液冷的方式,其余器件则使用风冷。

通过仿真分析来确定节点内部各冷板之间的连接关系(串联或并联),是设计过程中的一个关键点。合理的串并联设计不仅能优化冷却液的分布,确保热量迅速导出,最大化液冷系统的能力,还能改善冷却液的用量和在系统内的流速,降低液冷系统的流阻,提高整个液冷系统的可靠性和效率。

5.2.2.防泄露方案

1)单节点防泄漏方案(计算节点和交换节点):

节点机箱的底盘设计了液体疏液导流结构,并设有液体隔挡结构,以防止液体无序流动,保障IT设备的可靠性。此外,机箱内部还部署了绳状泄漏检测传感器,该传感器缠绕在冷板、接头和管路上,一旦出现泄漏情况,传感器将立即发出报警信号。

2)整机防泄露方案

单节点机箱设有疏水方案,确保单个节点的泄漏不影响其他节点。单个节点泄漏的液体通过机箱的疏水结构沿着机柜的导流槽流入机柜底部。机柜底部设计有积液盘,并且在积液盘上部署了泄漏检测传感器。

为推动算力产业高质量发展,ODCC网络工作组启动了ETH-X超节点系列项目。该项目由中国信通院、腾讯联合快手科技、京东、英特尔、博通、华勤技术、锐捷网络、新华三、联想、中兴、云豹智能、云合智网、盛科通信、立讯精密、光迅科技等多家合作伙伴共同推进,旨在开发产品化的样机以及相关的技术规范,构建大型多GPU互联算力集群系统。项目将在2025年秋季之前完成ETH-X超节点原型机的软件和硬件开发工作,并对其进行综合验证测试。同时,将正式发布《ETH-X超节点技术规范》,以期引领高性能计算领域的发展方向。

项目联系人

ODCC项目经理

信通院 孙老师 邮箱:suncong@caict.ac.cn

华勤 王小泉 邮箱:ryan.wang@huaqin.com

腾讯 何老师 邮箱:kinghe@tencent.com