今年6月,AMD CEO Lisa Su宣布了该公司计划很快推出Instinct MI300X,这是对NVIDIA的H100的替代品。考虑到全球的显卡短缺,时机再好不过。在NVIDIA和英特尔之间的争斗中,AMD正在默默地努力,并在人工智能竞争中领先。目前,重点是软件,因为硬件计划已经在进展中。
最近,AMD与韩国电信公司KT决定支持人工智能软件开发商Moreh。这家总部位于圣克拉拉的初创公司在B轮融资中筹集了2200万美元,总融资额达到了3000万美元。目前,该公司专注于开发ROCm,这是对NVIDIA在人工智能领域的一种软件替代品CUDA。
最近,AMD人工智能高级副总裁Vamsi Boppana表示,Radeon开放计算平台(ROCm)是公司当前的头等大事。“我们实际上在软件方面有更多的资源投入,Lisa Su已经非常明确地表示,她希望在软件方面进行重大和持续的投资,”他说。
就Moreh而言,该公司的旗舰产品MoAI兼容PyTorch、TensorFlow和其他之前只能在NVIDIA硬件上运行的应用程序。在AMD的投资下,该公司将进一步增强和加速AMD在人工智能软件领域的竞争。
KT自2021年以来一直与Moreh合作,在AMD GPU上为其可扩展的人工智能基础设施提供支持,并配备MoAI软件。目前,MoAI平台主要支持AMD的ROCm。KT使用AMD Instinct MI250加速器与MoAI一起使用,声称比NVIDIA的A100快116%。
软件为王
AMD数据中心GPU和加速处理公司副总裁Brad McCredie在一份声明中表示:“支持AMD AI硬件的人工智能软件生态系统持续增长,为数据科学家和其他AI用户提供选择,在构建推动行业持续增长的AI模型和解决方案时发挥作用。”
Lamini等公司一直在急切地等待MI300X带有192GB HBM的发布,这将使它们的模型运行得更好。Lamini表示,AMD的ROCm已经准备就绪,并声称它“具有巨大的潜力,可以像CUDA一样或甚至更大程度地加速LLM微调及更多领域的人工智能进步”。
除了Moreh,AMD还通过收购开源AI软件公司Nod.ai取得了巨大突破。“此次收购预计将极大地增强我们为AI客户提供开放软件的能力,使他们能够轻松部署针对AMD硬件进行优化的高性能AI模型,”Boppana表示。
AMD至今一直在进行软件投资。今年8月,该公司还宣布收购了法国AI初创公司Mipsology,该公司也是AMD的长期合作伙伴,为芯片制造商开发AI软件,类似于Nod.ai。
Boppana随后写道:“该团队将有助于开发我们的完整AI软件堆栈,扩大我们的软件工具、库和模型的开放生态系统,为在AMD硬件上运行的AI模型的简化部署铺平道路。”
显然,AMD已经找到了软件路线。
ROCm正在为MI300X做准备
Boppana在9月的AI Hardware Summit上表示,目前AMD正在受到巨大的客户吸引,并且这很大程度上决定了公司目前的策略。“飞机正在飞行中,所以我们无法拆卸引擎。然而,我们肯定正在基础层面上做一些事情,以实现我们在堆栈方面的更多统一,”他在一次采访中说。
他还表示,许多客户已经获得了MI300样品,并且正在测试其与ROCm的功能。例如,被DataBricks收购的初创公司MosaicML自今年年初以来一直在使用AMD的硬件(但是使用的是MI250),并与NVIDIA共享其系统。
加州利弗莫尔国家实验室即将推出的超级计算机El Capitan已经安装了不知名数量的MI300,进一步烘托了其发布的热潮。
Boppana进一步强调,ROCm的性能对于其即将发布的硬件的成功至关重要。尽管有些公司和开发者接受了它,但ROCm仍处于早期开发阶段,“坦率地说,我们还有一些地方需要提高”。
因此,虽然CUDA目前可能是霸主,但AMD绝对不再是被动的存在,有了ROCm,AMD有意超越NVIDIA在人工智能竞争中的地位。