“华彩杯”算力大赛 | 基于国产生态体系构建的超万卡智算集群
一、行业背景
当前,新一轮科技革命和产业变革加速演进,数据成为新生产要素、算力成为新基础能源、人工智能成为新生产工具。作为人工智能发展的底座,智能算力已成为推动社会发展的核心动力之一。如何实现算力自主可控,如何基于国产算力及生态构建大规模算力集群,已经成为推动产业数字化转型、发展新质生产力的重要课题。
二、国产超万卡智算集群项目
中国移动通信集团主导的哈尔滨智算中心项目旨在构建一个“弹性调度,自主可控、绿色低碳”的超万卡国产化智算中心,以实现6.93EFLOPS(FP16)的100%国产化智能算力交付。项目采用移动云统一平台,建设包括通算、智网、智算集群等全套云资源池,满足“由云向算”架构升级要求,打造通、智融合的统一算网底座,并初步提供IaaS、PaaS服务能力,逐步扩展至MaaS为主的多层次智算服务。
哈尔滨智算中心项目架构分为算力基础设施底座、资源编排调度、大模型训推服务、全栈智能运维服务和智算运营应用推广五个部分。
算力基础设施底座:项目将新建2304台国产化人工智能服务器,构建超大规模智算集群,采用独立的、大带宽的专用高性能参数网络,满足智能集群分布式训练时的高吞吐、低时延需求。参数面/数据面网络采用RDMA技术的RoCE组网,业务面网络则采用中国移动自研的天池SDN组网方案。存储方面,建设高性能文件存储60PB和普通性能存储(融合)90PB,并引入数据自动分级功能。
资源编排调度:基于Serverless和容器化管理技术,构建“域内拓扑感知”+“全域任务调度”的多级调度体系,通过移动云KCS容器产品,实现算力资源统一纳管、断点续训和故障上报功能,提升模型任务效能。
大模型训推服务:人工智能平台提供大模型训练、推理、应用研发工具集,支持昇腾910B资源纳管,提供训练资源套餐,支持多机多卡分布式训练,具备断点续训、分布式推理等核心能力,助力企业与科研人员加速创新进程。
全栈智能运维服务:中国移动云能力中心打造智能运维平台,提升大模型训练的稳定性和效率,提供全网全资源池智算集群性能管理、能耗分析、日志分析、监控告警等运维界面,实现集群性能采集和故障告警接收。
智算运营,应用推广:哈尔滨智算中心提供IaaS+PaaS+MaaS的产品智算运营维护服务,支持AI+应用层产品稳健运营,通过实时、细致的运营支撑工作,服务中国移动人工智能平台完成大模型训练任务。
三、应用效果
哈尔滨智算中心项目的应用成效显著,对产业、社会和经济均产生了积极影响。
产业方面,项目加速技术创新与产业应用,重塑产业链结构,促进产业标准统一,带来技术创新与产业升级效应。项目通过100%国产芯片应用,提升了技术自主性和安全性,为科研和工业界提供了前所未有的计算资源,加速了人工智能等关键领域的创新。智算中心和AI大模型的发展推动了产业链升级,助力经济高质量发展,推动下游硬件设备供应国产化发展,带动市场需求快速增长。
社会效益方面,智算中心作为全国最大的自主可控智算能力基础设施,推动社会经济发展和区域产业发展。社会服务支撑上,结合中国移动自主研发的AI大模型能力,提供全栈人工智能服务,构建行业级AI大模型,提供新型信息服务。区域经济发展上,智算中心作为区域创新平台,吸引高新技术企业和创新人才,形成产业聚集效应,推动区域经济发展。产业数智化转型上,通过训练完成的AI能力,传统产业实现生产过程的数字化、智能化,提升生产效率和产品质量。
经济效益方面,智能算力成为推动社会发展的核心动力。可持续发展上,哈尔滨智算中心利用全自然风冷技术建设,智算中心PUE<1.2,实现智算基地的可持续发展。市场定位上,全球人工智能市场预计将强劲增长,哈尔滨万卡智算中心项目面向超大规模智能算力服务市场,具有广阔的应用前景,带动相关产业链发展。