ODCC大会焦点!阿里云王伟:面向AI的服务器计算互连的ALS系统
2024-09-28
9月4日,2024 开放数据中心大会服务器分论坛在北京国际会议中心成功召开。来自阿里云智能集团的资深总监王伟与在场嘉宾分享了《面向AI的服务器计算互连的ALS系统》。
王伟指出,大模型AI对算力的持续增长诉求主要体现在模型/参数规模、数据集大小、访存容量及算力规模等多个方面。随着模型与参数的快速增长,算力与访存之间的增速不平衡问题日益凸显。为了解决这一问题,阿里云提出了Scale-Up互连的概念,即通过高效互连技术将更多AI芯片进行互联来,实现协同计算,从而大幅提升算力效率。
会上,王伟针对Scale-Up互连的核心诉求与技术特点部分进行了详细阐述,着重分析了高并发、极低延时、极致带宽等关键要素的重要性。王伟表示,AI计算过程中产生的巨量数据交换和通信需要达到10~100Tb级的通信带宽,才能接近匹配HBM(高带宽内存)的带宽。因此,ALS系统采用了极简协议设计,以实现极致带宽利用率,并支持单芯片10Tb+级的AI芯片直出能力。同时,ALS系统还支持原生内存语义、统一内存编址以及高可靠链路等特性,确保了数据传输的高效性和稳定性。
最后,王伟表示,ALS系统通过高效互连技术、极致带宽设计以及完善的软硬件生态系统,为下一代AI Infra提供了强有力的支持。同时,他也期待同众多业内伙伴携手,共同推动AI Scale Up互连技术的广泛应用与落地。
ODCC联系人
刘老师 13488889649(微信同号)
邮箱:liupengyun@caict.ac.cn