AWS公布Project Rainer计划,部署数十万枚Trainium2芯片

2024年12月04日 由 daydream 发表 90 0

亚马逊网络服务(AWS)近日公布了Project Rainer计划,这是一个由数十万枚定制的AWS Trainium2芯片驱动的计算集群。


微信截图_20241204105818


AWS利用该系统支持人工智能开发公司Anthropic PBC的工作。自去年9月以来,AWS母公司亚马逊已向这家OpenAI的竞争对手投资了80亿美元。数周前,Anthropic透露将协助AWS提升其Trainium芯片系列。


Trainium2芯片内置八个所谓的NeuronCores,每个NeuronCore又包含四个计算模块。其中一个模块是专为运行自定义AI操作而优化的GPSIMD引擎。这些操作是高度专业化的低级代码片段,机器学习团队使用它们来提高神经网络的性能。


八个NeuronCores由96GB的高带宽内存(HBM)支持,其速度远超其他类型的RAM。Trainium2芯片能够以高达2.8太比特每秒的速度在HBM池和NeuronCores之间传输数据。数据到达芯片处理部分的速度越快,计算就能越早开始。


Project Rainer中的数十万枚Trainium2芯片被组装成所谓的Trn2 UltraServers。这些AWS自主研发的服务器与计算集群一同在今日公布。每台机器包含64枚Trainium2芯片,在运行稀疏FP8操作时,能提供332拍浮点运算的聚合性能,这是一种AI模型用于处理数据的计算类型。


AWS没有像通常那样将Project Rainer的服务器部署在单个数据中心,而是决定将它们分散在多个地点。这种做法简化了物流任务,如为集群供电所需的电力供应。


历史上,将硬件分散在多个设施中的好处是显而易见的,但也会带来成本:延迟增加。集群中服务器之间的距离越大,数据在它们之间传输所需的时间就越长。由于AI集群经常在服务器之间传输信息,这种延迟增加可能会显著减慢处理速度。


AWS通过一项名为Elastic Fabric Adapter的内部开发技术解决了这一限制。这是一种网络设备,可加快数据在公司AI芯片之间的流动。


在两台不同服务器之间传输信息涉及许多计算操作,其中一些由服务器的操作系统执行。AWS的Elastic Fabric Adapter绕过了操作系统,从而使网络流量能够更快地到达目的地。


该设备在开源网络框架libfabric的帮助下处理流量。该软件不仅适用于为AI模型提供动力,还适用于其他要求苛刻的应用程序,如科学模拟。


AWS预计将于明年完成Project Rainer的建设。该系统上线后,将成为世界上最大的用于训练AI模型的计算集群之一。AWS表示,它将提供Anthropic迄今用于开发其语言模型的系统的五倍以上性能。


AWS公布Project Rainer计划大约是在其披露另一项大规模AI集群计划的一年之后。


这个名为Project Ceiba的系统运行的是Nvidia的芯片,而不是Trainium2处理器。最初计划为这台超级计算机配备16384枚Nvidia的GH200图形处理器。去年3月,AWS改为配置20736枚Blackwell B20芯片,预计提供六倍的性能。


Project Ceiba将支持Nvidia的内部工程工作。这家芯片制造商计划使用该系统进行语言模型研究、生物学和自动驾驶等领域的项目。

文章来源:https://siliconangle.com/2024/12/03/aws-details-project-rainier-ai-compute-cluster-hundreds-thousands-chips/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消