探索Google AI聊天机器人Bard在计算机视觉任务中的能力与挑战

2023年09月21日 由 daydream 发表 363 0

Bard是Google的AI聊天机器人,基于LaMDA和后来的PaLM模型,在2023年3月推出并取得了适度的成功,随后在5月扩展到全球。它是一个生成式AI,可以接受提示并执行基于文本的任务,如提供答案、摘要和创建各种形式的文本内容。


how-good-is-google-bar


2023年7月13日,Google的Bard宣布了一项重大更新,允许将图像作为输入与文本提示一起使用。据称,Bard可以通过分析视觉内容来提供描述(例如图像标题)或使用视觉信息回答问题。


值得注意的是,虽然其他模型(如GPT4)声称具有接受和理解视觉输入提示的能力,但它们并不对公众进行实验。访问Bard为计算机视觉社区提供了第一个机会来评估其健全性和稳健性,以了解现有的优势和局限性。在这项研究中,研究人员的目标是分析Bard在解决图像理解中一些长期存在的计算机视觉问题的能力。


这项发表在《机器智能研究》上的研究确定了几个基于计算机视觉问题的有趣场景,用于对Bard进行定性评估。由于Bard的基于API的访问仍然不可用,研究人员的评估不包括大规模基准测试的定量结果。


相反,目标是确定一些具有深刻见解的场景和相应的视觉-文本提示,以评估Bard和未来的大型多模态模型(如GPT4)的视觉理解能力。研究人员特别关注Bard的动力是其在所有开源和闭源多模态对话模型中(包括于2023年7月18日推出的Bing-Chat)表现最佳,正如LLaVA-Bench所证明的那样。


为了评估Bard的能力,如视觉感知和上下文理解,基于给定的文本提示,研究人员设计了一系列视觉语言任务场景。


随后,他们深入研究了从这些实证研究中得出的几个示例,总共涵盖了15个视觉问答(VQA)场景,包括对象检测和定位、分析对象属性、计数、适应性和自然图像中的细粒度识别等任务。他们还尝试了一些具有挑战性的案例,如识别伪装的物体以及医学、水下和遥感图像等不同领域。他们在下面解释了这些场景。


第一个场景是对象属性。它表明Bard在识别需要对每个对象及其属性有深入理解的属性方面存在挑战。


第二个场景是对象存在。这表明Bard对视觉内容的基本理解仍然有限。研究人员进一步指出,Bard目前专为不包含任何人类的图像进行了优化,并删除包含人脸或人物的视觉输入。


第三个场景是对象位置。它表明Bard对视觉上下文的定位能力可以进一步提高。


第四个场景是关系推理。这表明Bard在推理关系方面还有改进的空间。


第五个场景是适应性。它暗示Bard仍然需要更好地根据文本指导严格捕捉视觉语义,并更有效地将这些语义与识别的场景中的对象相关联。


第六个场景是对抗样本。Bard的所有输出都表明它无法理解对抗样本。


第七个场景是多雨条件。结果表明,Bard在图像中存在多雨条件时表现不佳。


第八个场景是情感理解。研究人员查询Bard时,它的回答是不正确的。


第九个场景是细粒度识别。这个任务涉及识别给定对象类别中的特定子类别,由于类内变异增加、类间差异微细和需要专业领域知识的必要性,这比一般对象识别更复杂。Bard给出了正确和错误的答案。


第十个场景是识别伪装物体。这表明Bard进一步提高解析伪装模式和相似纹理的能力。


第十一个场景是对象计数。研究人员注意到,Bard擅长描述场景,但在理解具有挑战性场景中的高级内容方面似乎不太擅长。


第十二个场景是检测工业缺陷。研究人员观察到Bard在识别这些不容易察觉的缺陷的挑战性场景中存在困难,因此向用户提供了错误的响应。


第十三个场景是识别光学字符。Bard在各种文本识别场景中遇到困难,该模型很难理解自然图像中的文本。


第十四个场景是分析医学数据。实验中没有输出有意义的内容。


第十五个场景是解释遥感数据。研究人员的发现表明,Bard有一种倾向性,即在整体理解视觉场景方面表现出色,但在区分细粒度视觉模式方面面临挑战,特别是在准确确定商业建筑物等对象的精确计数时。


Google的Bard在对话式AI领域的出现引起了广泛关注,因为它取得了显著的成功。基于这一势头,本研究旨在全面评估Bard在各种任务场景中的性能,包括普通、伪装、医学、水下和遥感图像。调查结果显示,尽管Bard在许多领域表现出色,但在某些以视觉为基础的场景中仍面临挑战。


这一发现突显了Bard在各种应用中的巨大潜力,并强调了在视觉相关任务中增长和改进的充足空间。这项研究的实证见解预计对未来模型的发展非常有价值,特别是在弥合视觉性能差距方面。通过解决观察到的视觉场景限制,研究人员预计后续模型将具有更强的视觉理解能力,最终推动对话式AI的进一步发展。

文章来源:https://techxplore.com/news/2023-09-good-google-bard-visual-empirical.html
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消