当世界还在渴望更多NVIDIA GPU的时候,AMD发布了MI300X,这款产品据说比NVIDIA的产品要快得多。AMD的目标不仅是在硬件方面挑战NVIDIA,还计划通过其开源的ROCm在软件方面将对手逼入角落,直接与NVIDIA的CUDA竞争。
“尽管硬件非常重要,但真正推动创新的是软件,”Lisa Su在谈到即将在下周发布的ROCm时说道。
在“Advancing AI”会议上,很明显AMD对软件的关注已经为其成功铺平了道路。AMD总裁Victor Peng展示了如何通过建立强大的生态系统,让公司能够创建一个成功的开源框架ROCm。
Peng介绍了其并行计算框架的最新迭代版本ROCm 6,专为AMD Instinct的全面软件堆栈进行了优化,特别是针对生成式AI中的大型语言模型。
每个人都喜欢开源
“我们设计ROCm是模块化且开源的,以便广泛用户能够轻松访问,并从开源AI社区快速得到贡献,”Peng说,并补充道,正是这种软件策略强调了CUDA是专有且封闭源代码的事实。
此外,ROCm现在也支持Radeon GPU,并结合Ryzen 1.0软件,在边缘计算中实现AI,使其对AI研究人员和开发人员更加易于访问。
在演示过程中,Peng还展示了OpenAI的Phillipe Tillet的推荐信,他写道:“OpenAI正在与AMD合作支持开放生态系统。我们计划从即将发布的3.0版本开始,在标准Triton分发中支持AMD的GPU,包括MI300。“Tillet是Triton的创建者。
AMD与三家新兴AI初创公司Databricks、Essential AI和Lamini合作,展示了这些公司如何利用AMD Instinct M1300X加速器和开放的ROCm 6软件堆栈,为企业客户提供差异化的AI解决方案。这三家初创公司都在使用ROCm和MI250X,并对其在各种实例上的性能大加赞赏。
Databricks的联合创始人Ion Stoica、Essential AI的联合创始人Ashish Vaswani和Lamini的联合创始人Sharon Zhou讨论了他们此前是如何利用AMD的硬件和软件的,并证明了技术的开放性帮助他们完全拥有了技术。
“ROCm从第一天起就可以开箱即用,”Stoica说,他突出表示在收购MosaicML后,将其集成到Databricks堆栈中非常容易,只需要进行一点点优化。他进一步补充说,Databricks几乎在所有软件工作流中都使用MI250X,并热切期待MI300X。
ROCm与CUDA:苹果对苹果的比较
“我们已经超越了CUDA,”Zhou说。Lamini此前在其博客中强调了如何在AMD身上找到了其阵地,并且ROCm已经准备好用于生产。Lamini的整个使命是帮助企业轻松获取并易于使用的小型语言模型,AMD和ROCm一直在帮助他们实现这一目标。
AMD继续在软件方面对诸如Mipsology和 Nod.AI 等公司进行战略投资,这些公司帮助AMD大幅提升了其在AI软件方面的能力。
许多开源工具比如PyTorch已经准备好可以在MI300X上与ROCm一起使用,这使得它们对大多数开发者来说轻而易举。这个CUDA替代品的特性包括对新数据类型的支持、高级图形和内核优化、优化库以及最先进的注意力算法。
值得注意的是,性能提升显著,与在MI250上运行的ROCm 5相比,文本生成的总体延迟提高了大约8倍。
Peng展示了,当进行Llama 2 70B的推理时,装有ROCm 6的MI300X要比装有ROCm 5的MI250X快8倍。
在像Llama 2 13B这样的较小模型上,与NVIDIA搭配CUDA的单GPU相比,装有ROCm的MI300X展示出了1.2倍更好的性能。
ROCm 6现在支持动态FP16、BF16和FP8,以提高性能并减少内存使用。新版本还带来了开放式艺术库,并支持生成式AI的各种关键特性,包括FlashAttention、HIPGraph和vLLM,分别提速了1.3X、1.4X和2.6X。
Peng总结说,“我对此深信不疑。随着ROCm 6和MI300X的推出,我们将推动开发者采用的转折点。我们正在授权创新者更快地实现AI的深远好处。”