BridgeTower,一个新的视觉-语言(VL)人工智能模型的微调性能基准,证明除了英伟达之外,人工智能加速阵营又有了新的挑战者。虽然英伟达在人工智能加速市场占据主导地位,但其他公司也渴望分一杯羹。至少对于BridgeTower来说,英特尔自己的Gaudí 2芯片(通过2019年花费20亿美元收购Habana而设计和制造的)被Hugging Face证明比英伟达的A100 80GB快2.5倍——甚至还能以高达1.4倍的速度击败英伟达的天才之作H100。
视觉语言
视觉-语言(VL)指的是能够处理和关联语言和视觉表征之间多模态信息的人工智能模型。特别是VL模型通常与图像生成模型相关联,比如Open AI的CLIP和Stable Diffusion XL——这是一个由Midjourney、Stable Diffusion和现在的Ideogram主导的快速增长的市场。
根据Habana的说法,显著的加速是由一个硬件加速的数据加载系统的结果——这是微调人工智能模型,特别是VL模型的一个瓶颈。无论发生什么计算,将工作负载加载到内存中通常都是一个性能瓶颈,所以Habana想要优化训练过程中的这个特定步骤并不出乎意料。
主要的瓶颈与CPU被许多昂贵的操作拖累有关,比如图像解码和图像增强(一个类似于GPU绘制调用争论的问题),导致HPU(或英伟达GPU)在等待更多数据时停滞。将被处理(由CPU)然后发送到选择的人工智能加速器。该过程在没有任何硬件加速的情况下运行,如下所示:
而它通过Gaudí 2的集成硬件加速处理,加速了图像变换:
通过硬件加速方法,很明显CPU被利用得更少(释放出CPU周期用于微调主过程中的其他任务),这应该会带来性能的提升。
通过对一个预训练的BridgeTower检查点进行微调,该检查点有8.66亿个参数,可以让我们看到硬件加速的图像加载为表格带来的性能提升。工作负载是在分布式计算中跨8个设备运行的(英伟达的A100 80Gb、H100和Gaudí 2)。结果是通过三次单独的处理运行进行测量和平均的,每次运行都增加了完全用于将数据加载到内存中的CPU进程(第一次运行在主CPU进程中加载内存,而第二次和第三次运行分别增加了一个和两个内存加载进程)。
Gaudy 2、Nvidia A100和Nvidia H100中的数据加载性能。单位以每秒样本数表示
设备 | dataloader_num_workers=0 | dataloader_num_workers=1 | dataloader_num_workers=2 | dataloader_num_workers=2 + mediapipe_dataloader |
Gaudi 2 HPU | 601.5 | 747.4 | 768.7 | 847.7 |
h100 gpu | 336.5 | 580.1 | 602.1 | N/A |
A100 80GB GPU | 227.5 | 339.7 | 345.4 | N/A |
结果很明显:对于Gaudí 2来说,最好的性能情况是第一种,即数据与主训练过程一起加载,Gaudí 2比英伟达的H100快1.79倍,比A100快2.23倍。但这是一个没有优化的情况,正如Habana自己承认的;所以也许最揭示性的结果来自于第三个数据点,那里启动了两个额外的进程来处理数据加载。在主微调过程之外。Gaudí 2的性能比英伟达的顶级产品H100好1.3倍,比A100 80 GB提供了高达2.23倍的竞争优势。
可以产生更多的进程来处理数据加载;但从性能的进展可以看出,这种策略会带来迅速减少的回报。例如,在英伟达H100上,通过引入一个专门的数据加载进程,性能提高了1.72倍,但从一个进程增加到两个进程只有额外3%的提升。然而,由于Habana能够将大部分数据加载步骤带入Gaudí 2中,该公司可以解锁额外10%的性能提升,相对于它自己最好的得分(其中数据加载和变换由两个CPU进程处理)。