超级AI计算平台X-MAN3.0:2019ODCC开放数据中心峰会亮点剧透
算法 、 数据 和算力 是 推动 AI 深度学习技术快速 发展的三大要素 。为支持更强的泛化能力,更高的预测精度,算法模型日趋复杂,越来越多的数据需要被及时标注和处理,计算性能成为关键 。近期,在 ODCC 立项开展的 AI 服务器项目迎来了新进展,由 百度专家研发的超级 AI 计算平台 X-MAN3.0 即将亮相峰会!该 AI 计算平台 提供极致的计算性能,支持超大复杂算法模型,能够快速及时处理海量数据。
X-MAN 解决的3大关键技术挑战
为提供更强的计算性能和最佳的计算效率, X-MAN 在系统设计中面临了三大关键技术的挑战:如何有效提升单机计算性能、如何实现多机加速的高可扩展性以及如何均衡 CPU 与 AI 加速芯片的配比关系,以避免系统瓶颈。
X-MAN 创造了6项业界第一,引领行业技术发展趋势
凭借着对AI 业务模型的深刻理解、扎实的硬件基础架构技术和对行业趋势的准确预判,百度设计了X-MAN AI 计算平台系列产品,创造了6 项业界第一。其中, 2016 年Q2 发布的X-MAN1.0 创造了5 个业界第一:首次实现单机扩展16 片AI 加速卡;首次实现4/8/16/32/64 卡系统级弹性扩展;首次实现AI 计算硬件解耦架构( 注:Facebook 2017 年Q1 发布的Big Basin 、微软2017 年Q1 发布的HGX-1 等都采用了相似设计理念);首次实现PCIe Fabric 技术架构,支持按业务需求动态分配AI 计算资源;首次实现虚拟机多卡高速无损通信技术(native performance )。2017 年Q3 发布的X-MAN2.0 业界首创将冷板式液冷散热技术应用到AI 计算产品里,有效解决了高性能AI 加速卡的散热挑战( 注:Google 2018 年Q2 发布的TPU3.0 也采用了相似技术)。
X-MAN3.0 加速多元化AI芯片落地
X-MAN3.0 采用了硬件系统模块化、互联接口标准化、互联拓扑高灵活性的设计思路,既提升了多元化 AI 加速芯片的兼容性 ,也促进了AI 加速芯片生态健康、快速、可持续的发展。X-MAN3.0 具备3 大关键技术特征,包括48V 供电技术、标准化的AI 加速卡接口定义和灵活的互联拓扑。
X-MAN3.0
X-MAN 大规模部署,助力百度AI战略快速落地
凭借着强大的单机计算性能、业界领先的多机扩展性、灵活的AI 计算资源动态分配调整能力,X-MAN 系列产品已在百度实现规模化部署 ,广泛应用于语音识别、计算机视觉、自然语音处理、无人车等基础AI 技术的深度学习模型训练,助力百度AI 战略的快速落地。
项目经理:
百度架构师,何永占,heyongzhan@baidu.com