MLCommons发布了其最新的MLPerf推理结果集。这些新结果标志着新一代生成式AI基准测试的首次亮相,同时也是对英伟达下一代Blackwell GPU处理器的首次验证测试结果。
MLCommons是一个多利益相关方、供应商中立的组织,负责管理MLperf基准测试,涵盖AI训练和AI推理两个方面。MLCommons发布的最新一轮MLPerf推理基准测试提供了AI硬件和软件领域快速演变的全面概览。本次共有22个组织提交了964项性能结果,这些基准测试成为企业决策者在复杂的AI部署世界中导航的重要资源。通过提供跨各种场景的标准化、可复现的AI推理能力测量,MLPerf使企业能够做出明智的AI基础设施投资决策,从而在性能、效率和成本之间取得平衡。
在MLPerf Inference v 4.1中,一系列值得注意的增加内容中,首次对专家混合(Mixture of Experts, MoE)的性能进行了评估,特别是Mixtral 8x7B模型。本轮基准测试展示了包括AMD的MI300x、谷歌的TPUv6e(Trillium)、英特尔的Granite Rapids、Untether AI的SpeedAI 240以及英伟达Blackwell B200 GPU在内的一系列令人印象深刻的新型处理器和系统,其中许多都是首次公开亮相。
MLCommons的MLPerf创始人兼负责人David Kanter在与媒体和分析师的电话会议中表示:“我们收到的提交内容在广度上非常惊人,这真的很令人兴奋。我们看到的系统越多样,对行业就越好,机会也就越多,可以比较和学习的东西也越多。”
引入专家混合(MoE)基准测试以应对日益庞大的语言模型带来的挑战
本轮测试的一大亮点是引入了专家混合(MoE)基准测试,旨在解决日益庞大的语言模型在实际部署中带来的问题。AMD技术团队高级成员、MLCommons推理工作组主席之一Miro Hodak在简报会上表示:“模型规模一直在增加,这在实际部署中引发了重大问题。”
Hodak解释说,从高层次上看,专家混合方法与单一的庞大模型不同,它包含几个较小的模型,这些模型是不同领域的专家。每当有查询时,它都会通过其中一个专家进行路由。
MoE基准测试使用Mixtral 8x7B模型测试不同硬件上的性能,该模型包含八个专家,每个专家拥有70亿个参数。它结合了三个不同的任务:
基于Open Orca数据集的问答
使用GSMK数据集的数学推理
使用MBXP数据集的编码任务
他指出,主要目标是更好地展示MoE方法与单一任务基准测试相比的优势,并展示这种在大型语言模型和生成式AI中新兴的建筑趋势的能力。Hodak解释说,MoE方法允许更高效的部署和任务专业化,可能为企业提供更灵活、更具成本效益的AI解决方案。
MLPerf测试基准为供应商提供了一个绝佳的机会,让他们能够预览即将推出的技术。与仅仅做出性能方面的市场宣传不同,MLPerf流程的严谨性提供了经过同行评审的行业标准测试。
在众多备受期待的AI硬件中,英伟达的Blackwell GPU于今年3月首次宣布。虽然距离Blackwell真正落入用户手中还需数月时间,但MLPerf Inference 4.1的结果已经为我们提前揭示了这款产品的强大性能。
“这是我们首次公布Blackwell的实测性能数据,我们非常兴奋能与大家分享这一成果,”英伟达公司的Dave Salvator在与媒体和分析师的简报会上表示。
MLPerf inference 4.1包含了许多不同的基准测试。特别是在生成式AI工作负载方面,它使用MLPerf最大的LLM工作负载Llama 2 70B来衡量性能。
“与上一代产品相比,我们每块GPU的性能提升了4倍,”Salvator说。
Blackwell GPU虽然是一块全新的重要硬件,但英伟达也在继续挖掘其现有GPU架构的潜力。Nvidia Hopper GPU的性能仍在不断提升。与六个月前的上一轮结果相比,英伟达在MLPerf inference 4.1中对Hopper GPU的测试结果显示,其性能提升了高达27%。
“这些性能提升完全来自于软件优化,”Salvator说。“换句话说,这是我们大约六个月前提交的同一款硬件,但由于我们持续进行的软件调优,我们能够在同一平台上实现更高的性能。”