UniBench：一个用于评估VLM的综合框架

2024年08月19日由 samoyed 发表 485 0

视觉语言模型（Vision-language models, VLM）因其能够处理各种多模态任务的能力而备受关注。然而，用于评估这些模型的基准测试的迅速增加，导致评估领域变得复杂且分散。这种情况给研究人员带来了诸多挑战。实施众多基准测试的协议既耗时又费力，而跨多个评估指标解读结果也变得困难重重。运行所有可用基准测试所需的计算资源也相当庞大，导致许多研究人员只能在新模型上评估部分基准测试。这种选择性的方法导致了对模型性能的片面理解，并使得不同VLM之间的比较变得复杂。因此，需要一个标准化的评估框架来得出关于推进VLM技术最有效策略的有意义结论。最终，该领域需要一种更加精简和全面的方法来对这些模型进行基准测试。

nuneybits_A_sleek_minimalist_vector_illustration_of_two_giant_g_a721f93f-7e66-4661-a2d5-f81d9b29a52f

来自Meta FAIR、古斯塔夫·埃菲尔大学（Univ Gustave Eiffel）、法国国家科学研究中心（CNRS）、LIGM实验室和布朗大学的研究人员推出了一个综合框架UniBench，旨在解决评估VLM时面临的挑战。这一统一的平台以用户友好的代码库实现了53个多样化的基准测试，涵盖了从对象识别到空间理解、计数以及特定领域的医学和卫星图像应用等广泛能力。UniBench将这些基准测试分为七大类和十七个更细粒度的能力，使研究人员能够以一种标准化的方式快速识别模型的优点和缺点。

UniBench的实用性通过对近60个公开可用的VLM的评估得到了验证，这些模型涵盖了不同的架构、模型大小、训练数据集规模和学习目标。这种在不同进步轴向上的系统比较揭示了，尽管扩大模型规模和训练数据在许多领域显著提高了性能，但它对视觉关系和推理任务的益处有限。UniBench还揭示了即使在最先进的VLM中，数值理解任务也始终存在困难。

为了便于实际应用，UniBench提供了一套经过提炼的代表性基准测试集，这些测试集可以在标准硬件上快速运行。这种既全面又高效的方法旨在简化VLM评估流程，使对VLM研究的有效策略的比较和洞察更加有意义。

UniBench通过对59个公开可用的VLM进行全面评估，展示了其效用，这些模型涵盖了广泛的架构、大小和训练方法。该框架在53个不同的基准测试上对这些模型进行了评估，这些基准测试被分为七种类型和十七种能力。这一系统评估揭示了VLM性能的几个关键见解和需要改进的领域。

结果表明，扩大模型规模和训练数据在许多领域显著提高了性能，特别是在对象识别和场景理解方面。然而，这种扩展方法对视觉关系和推理任务的益处有限。此外，即使是最先进的VLM，在处理看似简单的涉及数值理解的基准测试（如字符识别或计数）时也表现不佳，包括在像MNIST和SVHN这样的成熟数据集上。

评估强调，像Eva ViT-E/14这样的大型开放模型作为通用VLM表现良好。相比之下，像NegCLIP这样的专用模型在特定任务（特别是视觉关系）上表现出色。UniBench的全面方法允许对模型的优势和劣势进行细致入微的理解，为研究人员和从业者选择适合特定应用的模型或确定VLM开发中未来需要改进的领域提供了宝贵见解。

UniBench对59个VLM在53个不同基准测试上的全面评估揭示了以下几个关键见解：

任务间性能差异大。虽然VLM在许多领域表现出色，但在某些基准测试上却表现不佳，如在Winoground、iNaturalist、DSPR、Small Norb、dmlab、Clevr、PCam、Renderedssst2和Kitti等任务上，其性能接近或低于随机水平。

扩展限制：增加模型大小和训练数据集大小在许多领域（特别是对象识别和鲁棒性）中显著提高了性能。然而，这种扩展方法对视觉关系和推理任务的益处很小。

令人惊讶的弱点：VLM在传统上简单的任务（如MNIST数字识别）上表现不佳。即使在前五名准确率中，VLM在MNIST上的准确率也仅勉强达到90%，而一个基本的两层MLP（多层感知机）则能达到99%的准确率。

计数和数值任务：VLM在多个基准测试（包括SVHN、CountBench和ClevrCount）中的数字理解能力始终较弱。

数据质量优于数量：在20亿高质量样本上训练的模型优于在更大数据集上训练的模型，这强调了数据整理的重要性。

定制目标：具有特定学习目标的模型（如NegCLIP）在关系理解任务上显著优于大型模型。

模型推荐：对于通用用途，大型ViT编码器（如Eva-2 ViT-E/14）表现出最佳的整体性能。对于特定任务（如关系或计数），建议使用专用模型（如NegCLIP）。

UniBench通过将其53个基准测试提炼为代表性的七个子集，解决了全面VLM评估的挑战，从而在全面性和效率之间取得了平衡。这种方法克服了全面评估的计算需求，该评估需要在A100 GPU上处理600多万张图像，耗时超过2小时。虽然ImageNet与许多基准测试相关，但它仅代表了其他18个基准测试中的一小部分，这凸显了多样化指标的重要性。UniBench的精简集被选中以代表进步的关键轴，对于ViT-B/32模型，在单个A100 GPU上只需5分钟即可运行。这一高效的流程为快速而全面的VLM评估提供了实用解决方案，使研究人员和从业者能够快速获得有意义的见解。

文章来源：https://www.marktechpost.com/2024/08/18/unibench-a-python-library-to-evaluate-vision-language-models-vlms-robustness-across-diverse-benchmarks/

标签：

UniBench

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Hermes 3发布：4050亿参数大模型现“失忆”模式

下一篇北京人工智能研究院推出Aquila2系列模型

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来