探索Google AI聊天机器人Bard在计算机视觉任务中的能力与挑战

2023年09月21日由 daydream 发表 455 0

Bard是Google的AI聊天机器人，基于LaMDA和后来的PaLM模型，在2023年3月推出并取得了适度的成功，随后在5月扩展到全球。它是一个生成式AI，可以接受提示并执行基于文本的任务，如提供答案、摘要和创建各种形式的文本内容。

how-good-is-google-bar

2023年7月13日，Google的Bard宣布了一项重大更新，允许将图像作为输入与文本提示一起使用。据称，Bard可以通过分析视觉内容来提供描述（例如图像标题）或使用视觉信息回答问题。

值得注意的是，虽然其他模型（如GPT4）声称具有接受和理解视觉输入提示的能力，但它们并不对公众进行实验。访问Bard为计算机视觉社区提供了第一个机会来评估其健全性和稳健性，以了解现有的优势和局限性。在这项研究中，研究人员的目标是分析Bard在解决图像理解中一些长期存在的计算机视觉问题的能力。

这项发表在《机器智能研究》上的研究确定了几个基于计算机视觉问题的有趣场景，用于对Bard进行定性评估。由于Bard的基于API的访问仍然不可用，研究人员的评估不包括大规模基准测试的定量结果。

相反，目标是确定一些具有深刻见解的场景和相应的视觉-文本提示，以评估Bard和未来的大型多模态模型（如GPT4）的视觉理解能力。研究人员特别关注Bard的动力是其在所有开源和闭源多模态对话模型中（包括于2023年7月18日推出的Bing-Chat）表现最佳，正如LLaVA-Bench所证明的那样。

为了评估Bard的能力，如视觉感知和上下文理解，基于给定的文本提示，研究人员设计了一系列视觉语言任务场景。

随后，他们深入研究了从这些实证研究中得出的几个示例，总共涵盖了15个视觉问答（VQA）场景，包括对象检测和定位、分析对象属性、计数、适应性和自然图像中的细粒度识别等任务。他们还尝试了一些具有挑战性的案例，如识别伪装的物体以及医学、水下和遥感图像等不同领域。他们在下面解释了这些场景。

第一个场景是对象属性。它表明Bard在识别需要对每个对象及其属性有深入理解的属性方面存在挑战。

第二个场景是对象存在。这表明Bard对视觉内容的基本理解仍然有限。研究人员进一步指出，Bard目前专为不包含任何人类的图像进行了优化，并删除包含人脸或人物的视觉输入。

第三个场景是对象位置。它表明Bard对视觉上下文的定位能力可以进一步提高。

第四个场景是关系推理。这表明Bard在推理关系方面还有改进的空间。

第五个场景是适应性。它暗示Bard仍然需要更好地根据文本指导严格捕捉视觉语义，并更有效地将这些语义与识别的场景中的对象相关联。

第六个场景是对抗样本。Bard的所有输出都表明它无法理解对抗样本。

第七个场景是多雨条件。结果表明，Bard在图像中存在多雨条件时表现不佳。

第八个场景是情感理解。研究人员查询Bard时，它的回答是不正确的。

第九个场景是细粒度识别。这个任务涉及识别给定对象类别中的特定子类别，由于类内变异增加、类间差异微细和需要专业领域知识的必要性，这比一般对象识别更复杂。Bard给出了正确和错误的答案。

第十个场景是识别伪装物体。这表明Bard进一步提高解析伪装模式和相似纹理的能力。

第十一个场景是对象计数。研究人员注意到，Bard擅长描述场景，但在理解具有挑战性场景中的高级内容方面似乎不太擅长。

第十二个场景是检测工业缺陷。研究人员观察到Bard在识别这些不容易察觉的缺陷的挑战性场景中存在困难，因此向用户提供了错误的响应。

第十三个场景是识别光学字符。Bard在各种文本识别场景中遇到困难，该模型很难理解自然图像中的文本。

第十四个场景是分析医学数据。实验中没有输出有意义的内容。

第十五个场景是解释遥感数据。研究人员的发现表明，Bard有一种倾向性，即在整体理解视觉场景方面表现出色，但在区分细粒度视觉模式方面面临挑战，特别是在准确确定商业建筑物等对象的精确计数时。

Google的Bard在对话式AI领域的出现引起了广泛关注，因为它取得了显著的成功。基于这一势头，本研究旨在全面评估Bard在各种任务场景中的性能，包括普通、伪装、医学、水下和遥感图像。调查结果显示，尽管Bard在许多领域表现出色，但在某些以视觉为基础的场景中仍面临挑战。

这一发现突显了Bard在各种应用中的巨大潜力，并强调了在视觉相关任务中增长和改进的充足空间。这项研究的实证见解预计对未来模型的发展非常有价值，特别是在弥合视觉性能差距方面。通过解决观察到的视觉场景限制，研究人员预计后续模型将具有更强的视觉理解能力，最终推动对话式AI的进一步发展。

文章来源：https://techxplore.com/news/2023-09-good-google-bard-visual-empirical.html

标签：

Google AI Bard

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 ACDSee推出集成了人工智能技术的Photo Studio Ultimate新版本

下一篇 Midjourney V6版本预计今年发布，图像质量将大幅提升

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来

每个人都应该知道的48个AI术语

openwebtext glue shunk031/JGLUE piqa wikitext sciq EleutherAI/lambada_openai facebook/flores

AI热点

行业学习机器学习人工智能公司板人工智能未来机器人视觉识别

AI工具

更多工具 »

火山写作

字节跳动旗下团队推出的免费AI英语写作助手

Stable Diffusion

StabilityAI推出的文本到图像生成AI

GitHub Copilot

GitHub AI编程工具

Adobe Firefly

Adobe最新推出的AI图片生成工具

文心一格

AI艺术和创意辅助平台

热门企业

更多企业 »

热门职位

更多职位 »

深度学习软件工程师

Maluuba

20000~40000/月

Unity技术经理

Cisco

25000~30000/月深圳市

高级数据分析工程师

PilotAILabs

30000~60000/年深圳市