英伟达推出DGX SuperPOD:最强大的AI计算平台

2024年03月19日 由 daydream 发表 286 0

在今年的英伟达GTC大会上,英伟达推出了全新的DGX SuperPod系统,这是其迄今为止最强大的系统,也是一系列硬件和软件广泛推广的一部分。


微信截图_20240319131850


近年来,DGX已成为英伟达主要的服务器硬件和云系统之一。全新的DGX SuperPod系统采用了英伟达下一代AI加速GPU——Blackwell,这是继Hopper GPU之后的后续产品,也在GTC大会上发布。英伟达将Blackwell定位为支持并赋能具有万亿参数的AI模型。


DGX SuperPOD集成了Blackwell的GB200超级芯片版本,其中包括CPU和GPU资源。英伟达之前的Grace Hopper系列超级芯片是上一代DGX系统的核心。英伟达现有的DGX系统已被广泛应用于药物发现、医疗保健、欺诈检测、金融服务、推荐系统和消费者互联网等众多用例。


英伟达超大规模和高性能计算副总裁伊恩·巴克(Ian Buck)在新闻发布会上表示:“它是一个世界级的超级计算平台,并且开箱即用。它支持英伟达完整的AI软件堆栈,提供无与伦比的可靠性和规模。”


DGX SuperPOD内部有什么?


虽然“SuperPOD”这个词似乎只是一个营销上的夸张说法,但英伟达新DGX系统中实际包含的硬件令人印象深刻。


DGX SuperPOD不仅仅是一个单机架服务器,它是多个DGX GB200系统的组合。每个DGX GB200系统都配备了36个Nvidia GB200超级芯片,其中包括36个Nvidia Grace CPU和72个Nvidia Blackwell GPU,它们通过第五代Nvidia NVLink连接成一个超级计算机。


而让SuperPOD变得“超级”的是,DGX SuperPOD可以配置8个或更多的DGX GB200系统,并可以通过英伟达Quantum InfiniBand连接数万个GB200超级芯片。


该系统可以提供240TB的内存,这对于大规模语言模型(LLM)的训练和生成式AI的大规模推理至关重要。英伟达宣称的另一个令人印象深刻的数字是,DGX SuperPOD拥有11.5 exaflops的AI超级计算能力。


先进的网络和数据处理单元助力gen AI SuperPOD架构


DGX SuperPOD之所以“超级”,核心在于能够将如此多的GB200系统通过统一的计算架构连接在一起。


驱动这一架构的是英伟达最新发布的Quantum-X800 InfiniBand网络技术。这种架构为每个平台上的GPU提供高达1800GB/s的带宽。


DGX还集成了英伟达BlueField-3 DPU(数据处理单元)和第五代英伟达NVLink互联技术。


此外,新的SuperPOD还包括英伟达第四代可扩展分层聚合和归约协议(SHARP)技术。据英伟达称,与上一代相比,新一代DGX SuperPOD架构中的SHARP新版本提供了14.4 teraflops的网内计算能力,增长了4倍。


Blackwell即将应用于英伟达DGX Cloud


基于新型GB200的DGX系统也将被纳入英伟达DGX云服务。


GB200的功能将首先在亚马逊网络服务(AWS)、谷歌云和甲骨文云上提供。


巴克表示:“DGX Cloud是我们与云合作伙伴深入合作、共同设计的云服务,旨在为英伟达自己的AI研究和产品开发提供最佳的英伟达技术,同时也为我们的客户提供服务。”


新型GB200还将有助于推进英伟达与亚马逊网络服务(AWS)合作开发的Ceiba超级计算机项目,该项目于2023年11月首次宣布。Ceiba项目致力于利用DGX Cloud创建全球最大的公共云超级计算平台。


巴克表示:“我很高兴地宣布,Ceiba项目已经取得了突破性进展,我们现在已经将其升级为支持2万个GPU的Grace Blackwell架构。它将提供超过400 exaflops的AI计算能力。”

文章来源:https://venturebeat.com/ai/nvidias-new-dgx-superpod-can-handle-trillion-parameter-ai-models/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消