据报道,xAI公司已完成了其名为“Colossus”的人工智能训练系统的组装工作,该系统配置了10万张图形处理单元(GPU)卡。这一消息由特斯拉及xAI的首席执行官埃隆·马斯克于本周一在其X平台上公布。
Colossus系统在上周末上线,马斯克称其为“全球最强大的AI训练系统”。这可能意味着该集群比美国能源部的Aurora系统更快,后者目前被认为是世界上最快的AI超级计算机,在五月的一次基准测试中,Aurora达到了10.6 exaflops的速度。
Colossus配备了10万张Nvidia的H100 GPU卡,这款GPU自2022年推出以来,在一年多的时间里一直被视为Nvidia最强大的AI处理器。H100相比前一代GPU能够以高达30倍的速度运行语言模型。H100的性能部分归功于其名为Transformer Engine模块的设计,这是专门用于运行基于Transformer架构的神经网络模型的电路。
马斯克还透露,xAI计划在未来几个月内将Colossus的GPU数量增加到20万张,其中包括5万张更新且速度更快的H200 GPU。H200是去年十一月Nvidia推出的H100的升级版,通过采用HBM3e内存以及增加了内存容量至141GB,H200实现了数据传输速度的提升。
xAI的主打大语言模型Grok-2是在15000张GPU上训练而成的。而Colossus的10万张GPU可能将有助于开发出能力更为强大的语言模型。有消息称,xAI预计将在今年年底前发布Grok-2的继任者。
此外,有报道称,部分原本预定给特斯拉公司的GPU可能已被重新分配给xAI。今年一月,CNBC指出马斯克要求Nvidia将价值超过5亿美元的12000张H100 GPU从特斯拉转向xAI和其他AI项目。同一时期,马斯克估计特斯拉到今年年底将在Nvidia硬件上的支出将达到30亿至40亿美元之间。