在今年的英伟达GTC大会上,英伟达推出了全新的DGX SuperPod系统,这是其迄今为止最强大的系统,也是一系列硬件和软件广泛推广的一部分。
近年来,DGX已成为英伟达主要的服务器硬件和云系统之一。全新的DGX SuperPod系统采用了英伟达下一代AI加速GPU——Blackwell,这是继Hopper GPU之后的后续产品,也在GTC大会上发布。英伟达将Blackwell定位为支持并赋能具有万亿参数的AI模型。
DGX SuperPOD集成了Blackwell的GB200超级芯片版本,其中包括CPU和GPU资源。英伟达之前的Grace Hopper系列超级芯片是上一代DGX系统的核心。英伟达现有的DGX系统已被广泛应用于药物发现、医疗保健、欺诈检测、金融服务、推荐系统和消费者互联网等众多用例。
英伟达超大规模和高性能计算副总裁伊恩·巴克(Ian Buck)在新闻发布会上表示:“它是一个世界级的超级计算平台,并且开箱即用。它支持英伟达完整的AI软件堆栈,提供无与伦比的可靠性和规模。”
DGX SuperPOD内部有什么?
虽然“SuperPOD”这个词似乎只是一个营销上的夸张说法,但英伟达新DGX系统中实际包含的硬件令人印象深刻。
DGX SuperPOD不仅仅是一个单机架服务器,它是多个DGX GB200系统的组合。每个DGX GB200系统都配备了36个Nvidia GB200超级芯片,其中包括36个Nvidia Grace CPU和72个Nvidia Blackwell GPU,它们通过第五代Nvidia NVLink连接成一个超级计算机。
而让SuperPOD变得“超级”的是,DGX SuperPOD可以配置8个或更多的DGX GB200系统,并可以通过英伟达Quantum InfiniBand连接数万个GB200超级芯片。
该系统可以提供240TB的内存,这对于大规模语言模型(LLM)的训练和生成式AI的大规模推理至关重要。英伟达宣称的另一个令人印象深刻的数字是,DGX SuperPOD拥有11.5 exaflops的AI超级计算能力。
先进的网络和数据处理单元助力gen AI SuperPOD架构
DGX SuperPOD之所以“超级”,核心在于能够将如此多的GB200系统通过统一的计算架构连接在一起。
驱动这一架构的是英伟达最新发布的Quantum-X800 InfiniBand网络技术。这种架构为每个平台上的GPU提供高达1800GB/s的带宽。
DGX还集成了英伟达BlueField-3 DPU(数据处理单元)和第五代英伟达NVLink互联技术。
此外,新的SuperPOD还包括英伟达第四代可扩展分层聚合和归约协议(SHARP)技术。据英伟达称,与上一代相比,新一代DGX SuperPOD架构中的SHARP新版本提供了14.4 teraflops的网内计算能力,增长了4倍。
Blackwell即将应用于英伟达DGX Cloud
基于新型GB200的DGX系统也将被纳入英伟达DGX云服务。
GB200的功能将首先在亚马逊网络服务(AWS)、谷歌云和甲骨文云上提供。
巴克表示:“DGX Cloud是我们与云合作伙伴深入合作、共同设计的云服务,旨在为英伟达自己的AI研究和产品开发提供最佳的英伟达技术,同时也为我们的客户提供服务。”
新型GB200还将有助于推进英伟达与亚马逊网络服务(AWS)合作开发的Ceiba超级计算机项目,该项目于2023年11月首次宣布。Ceiba项目致力于利用DGX Cloud创建全球最大的公共云超级计算平台。
巴克表示:“我很高兴地宣布,Ceiba项目已经取得了突破性进展,我们现在已经将其升级为支持2万个GPU的Grace Blackwell架构。它将提供超过400 exaflops的AI计算能力。”