AI服务器测评指标白皮书
人工智能近年来的快速发展,得益于深度学习技术的突破。自2012年,Hinton的学生Alex Krizhevsky提出AlexNet,一举摘下ILSVRC 2012的桂冠后,ILSVRC比赛冠军的准确率越来越高。与此同时,其中使用到的深度学习算法也越来越复杂,所需要的计算量也越来越大。SENet与AlexNet相比,计算量多了近30倍。我们知道,ImageNet大概有120万张图片,以SENet为例,如果要完成100个epoch的完整训练,将需要2.52 * 10^18的计算量。如此庞大的计算量,已经远远超出传统的机器学习算法的范畴。那么,我们业界当前常用的计算单元的计算力是多少呢?
CPU 物理核:一般浮点运算能力在10^10 FLOPS量级。一台16 Cores的服务器,大致上有200 GFLOPS的运算能力。实际运行,CPU 大概能用到80%的性能,那就160 GFLOPS的运算能力。完成上述SENet运行,需要182天。
NVIDIA GPGPU : 目前的V100,单精度浮点运算的峰值大概为14 TFLOPS, 实际运行中,我们假设能用到50%的峰值性能,那就是7 TFLOPS,需要4天。
随着开发人员在人工智能 (AI) 计算等应用领域中越来越依赖并行结构,各行各业中的多 GPU 和多 CPU 系统愈发普及。其中包括采用 PCIe 系统互联技术的 4 GPU 和 8 GPU 系统配置来解决非常复杂的重大难题。然而,在多 GPU 系统层面,PCIe 带宽逐渐成为瓶颈,这就需要更快速和更具扩展性的多处理器互联技术。因此,很多通信协议不断被推出,例如GenZ、CXL、NVLINK、NVSWITCH、OpenCAPI、CCIX等。采用不同的总线技术和互联结构决定了计算部件之间的通信能力。
更多测评指标,敬请关注《AI服务器测评指标白皮书》.
项目经理:
郑超
中国电信股份有限公司战略与创新研究院
王少鹏
中国信息通信研究院云大所数据中心研究部
wangshaopeng@caict.ac.cn