AWS公布Project Rainer计划，部署数十万枚Trainium2芯片

2024年12月04日由 daydream 发表 344 0

亚马逊网络服务（AWS）近日公布了Project Rainer计划，这是一个由数十万枚定制的AWS Trainium2芯片驱动的计算集群。

微信截图_20241204105818

AWS利用该系统支持人工智能开发公司Anthropic PBC的工作。自去年9月以来，AWS母公司亚马逊已向这家OpenAI的竞争对手投资了80亿美元。数周前，Anthropic透露将协助AWS提升其Trainium芯片系列。

Trainium2芯片内置八个所谓的NeuronCores，每个NeuronCore又包含四个计算模块。其中一个模块是专为运行自定义AI操作而优化的GPSIMD引擎。这些操作是高度专业化的低级代码片段，机器学习团队使用它们来提高神经网络的性能。

八个NeuronCores由96GB的高带宽内存（HBM）支持，其速度远超其他类型的RAM。Trainium2芯片能够以高达2.8太比特每秒的速度在HBM池和NeuronCores之间传输数据。数据到达芯片处理部分的速度越快，计算就能越早开始。

Project Rainer中的数十万枚Trainium2芯片被组装成所谓的Trn2 UltraServers。这些AWS自主研发的服务器与计算集群一同在今日公布。每台机器包含64枚Trainium2芯片，在运行稀疏FP8操作时，能提供332拍浮点运算的聚合性能，这是一种AI模型用于处理数据的计算类型。

AWS没有像通常那样将Project Rainer的服务器部署在单个数据中心，而是决定将它们分散在多个地点。这种做法简化了物流任务，如为集群供电所需的电力供应。

历史上，将硬件分散在多个设施中的好处是显而易见的，但也会带来成本：延迟增加。集群中服务器之间的距离越大，数据在它们之间传输所需的时间就越长。由于AI集群经常在服务器之间传输信息，这种延迟增加可能会显著减慢处理速度。

AWS通过一项名为Elastic Fabric Adapter的内部开发技术解决了这一限制。这是一种网络设备，可加快数据在公司AI芯片之间的流动。

在两台不同服务器之间传输信息涉及许多计算操作，其中一些由服务器的操作系统执行。AWS的Elastic Fabric Adapter绕过了操作系统，从而使网络流量能够更快地到达目的地。

该设备在开源网络框架libfabric的帮助下处理流量。该软件不仅适用于为AI模型提供动力，还适用于其他要求苛刻的应用程序，如科学模拟。

AWS预计将于明年完成Project Rainer的建设。该系统上线后，将成为世界上最大的用于训练AI模型的计算集群之一。AWS表示，它将提供Anthropic迄今用于开发其语言模型的系统的五倍以上性能。

AWS公布Project Rainer计划大约是在其披露另一项大规模AI集群计划的一年之后。

这个名为Project Ceiba的系统运行的是Nvidia的芯片，而不是Trainium2处理器。最初计划为这台超级计算机配备16384枚Nvidia的GH200图形处理器。去年3月，AWS改为配置20736枚Blackwell B20芯片，预计提供六倍的性能。

Project Ceiba将支持Nvidia的内部工程工作。这家芯片制造商计划使用该系统进行语言模型研究、生物学和自动驾驶等领域的项目。

文章来源：https://siliconangle.com/2024/12/03/aws-details-project-rainier-ai-compute-cluster-hundreds-thousands-chips/

标签：

AWS 芯片

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 AWS发布SageMaker Unified Studio，强化AI模型开发与数据管理

下一篇索尼互娱高管谈AI与游戏未来：人文关怀不可或缺

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来