亚马逊网络服务(AWS)近日公布了Project Rainer计划,这是一个由数十万枚定制的AWS Trainium2芯片驱动的计算集群。
AWS利用该系统支持人工智能开发公司Anthropic PBC的工作。自去年9月以来,AWS母公司亚马逊已向这家OpenAI的竞争对手投资了80亿美元。数周前,Anthropic透露将协助AWS提升其Trainium芯片系列。
Trainium2芯片内置八个所谓的NeuronCores,每个NeuronCore又包含四个计算模块。其中一个模块是专为运行自定义AI操作而优化的GPSIMD引擎。这些操作是高度专业化的低级代码片段,机器学习团队使用它们来提高神经网络的性能。
八个NeuronCores由96GB的高带宽内存(HBM)支持,其速度远超其他类型的RAM。Trainium2芯片能够以高达2.8太比特每秒的速度在HBM池和NeuronCores之间传输数据。数据到达芯片处理部分的速度越快,计算就能越早开始。
Project Rainer中的数十万枚Trainium2芯片被组装成所谓的Trn2 UltraServers。这些AWS自主研发的服务器与计算集群一同在今日公布。每台机器包含64枚Trainium2芯片,在运行稀疏FP8操作时,能提供332拍浮点运算的聚合性能,这是一种AI模型用于处理数据的计算类型。
AWS没有像通常那样将Project Rainer的服务器部署在单个数据中心,而是决定将它们分散在多个地点。这种做法简化了物流任务,如为集群供电所需的电力供应。
历史上,将硬件分散在多个设施中的好处是显而易见的,但也会带来成本:延迟增加。集群中服务器之间的距离越大,数据在它们之间传输所需的时间就越长。由于AI集群经常在服务器之间传输信息,这种延迟增加可能会显著减慢处理速度。
AWS通过一项名为Elastic Fabric Adapter的内部开发技术解决了这一限制。这是一种网络设备,可加快数据在公司AI芯片之间的流动。
在两台不同服务器之间传输信息涉及许多计算操作,其中一些由服务器的操作系统执行。AWS的Elastic Fabric Adapter绕过了操作系统,从而使网络流量能够更快地到达目的地。
该设备在开源网络框架libfabric的帮助下处理流量。该软件不仅适用于为AI模型提供动力,还适用于其他要求苛刻的应用程序,如科学模拟。
AWS预计将于明年完成Project Rainer的建设。该系统上线后,将成为世界上最大的用于训练AI模型的计算集群之一。AWS表示,它将提供Anthropic迄今用于开发其语言模型的系统的五倍以上性能。
AWS公布Project Rainer计划大约是在其披露另一项大规模AI集群计划的一年之后。
这个名为Project Ceiba的系统运行的是Nvidia的芯片,而不是Trainium2处理器。最初计划为这台超级计算机配备16384枚Nvidia的GH200图形处理器。去年3月,AWS改为配置20736枚Blackwell B20芯片,预计提供六倍的性能。
Project Ceiba将支持Nvidia的内部工程工作。这家芯片制造商计划使用该系统进行语言模型研究、生物学和自动驾驶等领域的项目。