ODCC大会焦点!腾讯夏寅贲:ETH-X算力超节点进展与挑战
9月4日,2024开放数据中心大会之网络分论坛在北京召开。腾讯网络首席架构师夏寅贲介绍了ETH-X超节点项目设计进展,分享了超节点系统面临的更多挑战及后续项目发展计划。
GPU超节点
GPU超节点是ODCC面向AI算力需求增长、突破MFU增长瓶颈的一个产业合作项目,目标是完成开放GPU超节点系统原型验证并形成相关开放硬件架构设计规范、互联协议设计规范、系统及业务测试及运维相关技术规范。
GPU超节点系统的核心特征是通过GPU直出高带宽、低时延scale up接口互联构成高带宽域(HBD,High Bandwidth Domain),因此Scale Up网络是超节点系统的技术核心。以太网技术(ETH)作为当前最成熟、最开放的网络技术,具有最大交换芯片容量、最高速Serdes技术、200ns交换芯片、最多参与企业的特点,并且已经是当前众多GPU厂商选择的Scale up接口技术,因此以以太网为基础构建ETH-X以太超节点是GPU超节点项目的首选原型方案。
ETH-X以太超节点系统
ETH-X以太超节点系统自2024年5月启动,经过众多参与公司的共同努力,已完成Computer-Cable-Switch开放解偶架构设计。Computer-Cable-Switch架构将超节点系统分解成Computer计算子系统、Switch交换子系统、Cable互联子系统及机架子系统几个部分,并已完成各子系统硬件设计规范开发。至此可以保证超节点系统的硬件可以由不同专业领域厂家独立研发生产,并保证了各子系统硬件可集成互通。系统解偶后,各子系统均具有兼容多种GPU芯片、多种Switch芯片及其独立演进的能力,由此充分保证了GPU超节点系统参与厂家的专业性、多样性和开放性。
ETH-X以太超节点系统仍面临着集成测试、系统运维、协议设计、业务测试等一些列的技术挑战。特别是在协议设计方面。超节点的根本目标是保证GPU计算引擎不因为等数据而造成空闲,因此Scale Up网络的核心就是数据搬移的要快。GPU之间如果需要大数据块搬移,Scale Up网络的要求就是大带宽、高利用率、更少的GPU资源占用,RDMA则是合适的选择;如果GPU之间需要小数据的访问,Scale Up网络的要求就是低时延、承载GPU计算引擎直接通过内存语义访问远端数据空间的能力。以太网作为一种传输承载技术已支持RDMA及低时延内存语义访问。但与Scale Out网络协议设计追求更大规模而侧重更强大端到端能力、不依赖交换设备的特点不同,Scale Up网络协议设计则更追求端侧轻量化实现、充分发挥交换设备能力。因此ETH-X以太超节点系统仍需产业界充分协作,共同努力在现有开放生态基础上不断完善、加速GPU超节点系统的成熟与发展。
PPT公开
ODCC联系人
刘老师 13488889649(微信同号)
邮箱:liupengyun@caict.ac.cn