Meta发布OpenEQA基准数据集助力具身AI研究

2024年04月12日由 daydream 发表 538 0

Meta AI的研究团队公开了名为OpenEQA的开源基准数据集，它专注于评估人工智能系统在“具身问答”方面的能力，即系统如何理解和回答关于真实世界环境的自然语言问题，从而深化对现实世界的认知。

OpenEQA数据集作为Meta在“具身人工智能”这一新兴领域的核心基准，包含了超过1600个与180多个不同真实世界环境（如家庭和办公室）相关的问题。这些问题涵盖了七个类别，全方位地检验了人工智能在物体和属性识别、空间与功能推理以及常识性知识等方面的实力。

微信截图_20240412093126

研究人员在今日发布的论文中阐述：“在此背景下，我们提出了具身问答（EQA）这一概念，它不仅是一个实用的终端应用，更是评估智能体对现实世界理解程度的有效手段。简而言之，EQA的任务就是深入解析环境，以便用自然语言回答与其相关的问题。”

OpenEQA项目位于人工智能研究的热点领域——计算机视觉、自然语言处理、知识表示和机器人技术的交叉点。其长远愿景是打造出能够感知、与世界互动、与人类自然沟通并利用知识助力我们日常生活的智能代理。

微信截图_20240412093154

研究人员认为，这种“具身智能”在短期内主要有两大应用场景。一是作为嵌入增强现实眼镜或头戴式设备的AI助手，利用视频和其他传感器数据，为用户提供类似照相机般的记忆功能，帮助解答如“我把钥匙放在哪里了？”等问题。二是作为移动机器人，它们能够自主探索环境以收集信息，例如在家中搜索以回答“我还有咖啡剩下吗？”等问题。

434866657_322871073801075_853997687252534614_n_25721d

为了构建这一具有挑战性的基准数据集，Meta的研究人员首先收集了真实世界环境的视频和3D扫描数据。随后，他们向人类展示这些视频，并请他们提出可能向能访问这些视觉数据的AI助手提出的问题。

最终收集到的1636个问题全面检验了广泛的感知和推理能力。例如，为了回答“餐桌周围有多少把椅子？”这一问题，AI需要能够识别场景中的物体，理解“周围”这一空间概念，并计算相关物体的数量。其他问题则要求AI具备关于物体用途和属性的基本常识。

每个问题还附有多个人类生成的答案，以应对问题的多种可能回答方式。为了评估AI代理的性能，研究人员利用大型语言模型进行自动评分，以衡量AI生成的答案与人类答案的相似度。

文章来源：https://venturebeat.com/ai/meta-ai-releases-openeqa-to-spur-embodied-intelligence-in-artificial-agents/

标签：

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇微软Build大会前瞻：Windows on Arm与AI功能革新即将揭晓

下一篇 Adobe付酬征集视频，强化AI文本转视频功能

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来