UniBench:一个用于评估VLM的综合框架

2024年08月19日 由 samoyed 发表 129 0

视觉语言模型(Vision-language models, VLM)因其能够处理各种多模态任务的能力而备受关注。然而,用于评估这些模型的基准测试的迅速增加,导致评估领域变得复杂且分散。这种情况给研究人员带来了诸多挑战。实施众多基准测试的协议既耗时又费力,而跨多个评估指标解读结果也变得困难重重。运行所有可用基准测试所需的计算资源也相当庞大,导致许多研究人员只能在新模型上评估部分基准测试。这种选择性的方法导致了对模型性能的片面理解,并使得不同VLM之间的比较变得复杂。因此,需要一个标准化的评估框架来得出关于推进VLM技术最有效策略的有意义结论。最终,该领域需要一种更加精简和全面的方法来对这些模型进行基准测试。


nuneybits_A_sleek_minimalist_vector_illustration_of_two_giant_g_a721f93f-7e66-4661-a2d5-f81d9b29a52f


来自Meta FAIR、古斯塔夫·埃菲尔大学(Univ Gustave Eiffel)、法国国家科学研究中心(CNRS)、LIGM实验室和布朗大学的研究人员推出了一个综合框架UniBench,旨在解决评估VLM时面临的挑战。这一统一的平台以用户友好的代码库实现了53个多样化的基准测试,涵盖了从对象识别到空间理解、计数以及特定领域的医学和卫星图像应用等广泛能力。UniBench将这些基准测试分为七大类和十七个更细粒度的能力,使研究人员能够以一种标准化的方式快速识别模型的优点和缺点。


UniBench的实用性通过对近60个公开可用的VLM的评估得到了验证,这些模型涵盖了不同的架构、模型大小、训练数据集规模和学习目标。这种在不同进步轴向上的系统比较揭示了,尽管扩大模型规模和训练数据在许多领域显著提高了性能,但它对视觉关系和推理任务的益处有限。UniBench还揭示了即使在最先进的VLM中,数值理解任务也始终存在困难。


为了便于实际应用,UniBench提供了一套经过提炼的代表性基准测试集,这些测试集可以在标准硬件上快速运行。这种既全面又高效的方法旨在简化VLM评估流程,使对VLM研究的有效策略的比较和洞察更加有意义。


UniBench通过对59个公开可用的VLM进行全面评估,展示了其效用,这些模型涵盖了广泛的架构、大小和训练方法。该框架在53个不同的基准测试上对这些模型进行了评估,这些基准测试被分为七种类型和十七种能力。这一系统评估揭示了VLM性能的几个关键见解和需要改进的领域。


结果表明,扩大模型规模和训练数据在许多领域显著提高了性能,特别是在对象识别和场景理解方面。然而,这种扩展方法对视觉关系和推理任务的益处有限。此外,即使是最先进的VLM,在处理看似简单的涉及数值理解的基准测试(如字符识别或计数)时也表现不佳,包括在像MNIST和SVHN这样的成熟数据集上。


评估强调,像Eva ViT-E/14这样的大型开放模型作为通用VLM表现良好。相比之下,像NegCLIP这样的专用模型在特定任务(特别是视觉关系)上表现出色。UniBench的全面方法允许对模型的优势和劣势进行细致入微的理解,为研究人员和从业者选择适合特定应用的模型或确定VLM开发中未来需要改进的领域提供了宝贵见解。


UniBench对59个VLM在53个不同基准测试上的全面评估揭示了以下几个关键见解:


任务间性能差异大。虽然VLM在许多领域表现出色,但在某些基准测试上却表现不佳,如在Winoground、iNaturalist、DSPR、Small Norb、dmlab、Clevr、PCam、Renderedssst2和Kitti等任务上,其性能接近或低于随机水平。


扩展限制:增加模型大小和训练数据集大小在许多领域(特别是对象识别和鲁棒性)中显著提高了性能。然而,这种扩展方法对视觉关系和推理任务的益处很小。


令人惊讶的弱点:VLM在传统上简单的任务(如MNIST数字识别)上表现不佳。即使在前五名准确率中,VLM在MNIST上的准确率也仅勉强达到90%,而一个基本的两层MLP(多层感知机)则能达到99%的准确率。


计数和数值任务:VLM在多个基准测试(包括SVHN、CountBench和ClevrCount)中的数字理解能力始终较弱。


数据质量优于数量:在20亿高质量样本上训练的模型优于在更大数据集上训练的模型,这强调了数据整理的重要性。


定制目标:具有特定学习目标的模型(如NegCLIP)在关系理解任务上显著优于大型模型。

模型推荐:对于通用用途,大型ViT编码器(如Eva-2 ViT-E/14)表现出最佳的整体性能。对于特定任务(如关系或计数),建议使用专用模型(如NegCLIP)。


UniBench通过将其53个基准测试提炼为代表性的七个子集,解决了全面VLM评估的挑战,从而在全面性和效率之间取得了平衡。这种方法克服了全面评估的计算需求,该评估需要在A100 GPU上处理600多万张图像,耗时超过2小时。虽然ImageNet与许多基准测试相关,但它仅代表了其他18个基准测试中的一小部分,这凸显了多样化指标的重要性。UniBench的精简集被选中以代表进步的关键轴,对于ViT-B/32模型,在单个A100 GPU上只需5分钟即可运行。这一高效的流程为快速而全面的VLM评估提供了实用解决方案,使研究人员和从业者能够快速获得有意义的见解。

文章来源:https://www.marktechpost.com/2024/08/18/unibench-a-python-library-to-evaluate-vision-language-models-vlms-robustness-across-diverse-benchmarks/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消