GPU之战:NVIDIA vs AMD

2023年12月19日 由 samoyed 发表 250 0

当AMD在其推进人工智能的活动中发布MI300X时,AMD首席执行官Lisa Su及其同事通过将其与NVIDIA H100在Llama 2的推理性能进行比较,展示了该加速器的强大实力。在该展示中,AMD的一台服务器包含八个MI300X,其性能比一台H100的服务器快1.6倍。


AMD-and-NVIDIA-Battle-for-Best-GPUs


但是NVIDIA对这种比较并不满意,并对此进行了驳斥。根据NVIDIA的博客文章,与AMD的展示相反,该公司认为,当H100 GPU与经过优化的软件适当进行基准测试时,其性能大幅领先于MI300X。


NVIDIA反击这一说法,声称AMD在与TensorRT-LLM的比较中未能纳入其优化。NVIDIA的回应包括将单一H100与运行Llama 2 70B聊天模型的八路H100 GPU进行对比。


使用AMD演示之前的软件得到的结果显示,在批处理大小为1时性能是之前的两倍。更进一步,应用AMD使用的标准2.5秒延迟时,NVIDIA显然有着显而易见的优势,其性能超过了MI300惊人的14倍。


AMD迅速回应


令人惊讶的是,在得知NVIDIA的挑战后,AMD用新的MI300X基准测试作出回应,在软件经过精调的情况下,其性能优于H100 30%。


AMD采取了主动的方式,模仿NVIDIA的测试条件使用TensorRT-LLM,考量了服务器工作负载中的常见因素——延迟。AMD强调其论点中的关键点,特别强调了使用vLLM的FP16相对于仅限于TensorRT-LLM的FP8的优势。


AMD声称,NVIDIA在H100上进行基准测试时是使用了其专有的TensorRT-LLM,而不是普遍使用的vLLM。


此外,AMD指出了数据类型使用的差异,NVIDIA在将其与DGX-H100的TensorRT-LLM进行比较时,使用了AMD的vLLM FP16,而不是支持FP8数据类型的vLLM。AMD捍卫其选择vLLM搭配FP16的决定,理由是其广泛使用,不同于不支持FP8的TensorRT-LLM。


服务器环境中考虑延迟的问题也是一个争议点。AMD批评NVIDIA只关注吞吐性能,而没有解决现实世界中的延迟问题。


为了反击NVIDIA的测试方法,AMD进行了三次性能运行,使用NVIDIA的TensorRT-LLM。测试展示了改进的性能和降低的延迟。AMD应用了附加的优化措施,在两个平台上运行vLLM时,与H100相比性能提升了2.1倍。


竞争激烈


NVIDIA和AMD之间的竞争已经持续了很长时间。但有趣的是,这是NVIDIA首次决定将其产品的性能与AMD进行直接比较。这明显显示出该领域的竞争正在升温。


目前,NVIDIA需要制定回应AMD的策略,考虑到放弃FP16以支持TensorRT-LLM封闭系统中的FP8的后果,同时还要注意,像英特尔和Cerebras这样的其他公司在制造GPU方面也越来越好。


不仅是这两家芯片巨头,像Cerebras Systems和英特尔等其他公司也试图在市场上留下自己的印记。英特尔的首席执行官Pat Gelsinger在其AI Everywhere活动上展示了Gaudi3 AI芯片,尽管关于它的信息很少。


NVIDIA计划在明年年初推出GH200超级芯片。但AMD没有将其新芯片与GH200进行比较,而是与H100进行比较。显然,GH200的性能肯定比上一代的要好。由于他们的水平如此接近,很多公司可能会将AMD视为备选方案,比如已经宣布将其集成到数据中心的微软、Meta和Oracle。


Gelsinger预测,到2027年,GPU市场规模将达到4000亿美元。这无疑为很多竞争提供了发展空间。


与此同时,Cerebras Systems的首席执行官Andrew Feldman在全球AI大会上对NVIDIA的垄断行为进行了抨击。“我们花时间弄清楚如何做得比NVIDIA更好。”他谈到公司的雄心勃勃计划时说:“到明年,我们将建造36EB的人工智能计算能力。”


文章来源:https://analyticsindiamag.com/gpu-battle-nvidia-vs-amd/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消