Meta AI的研究团队公开了名为OpenEQA的开源基准数据集,它专注于评估人工智能系统在“具身问答”方面的能力,即系统如何理解和回答关于真实世界环境的自然语言问题,从而深化对现实世界的认知。
OpenEQA数据集作为Meta在“具身人工智能”这一新兴领域的核心基准,包含了超过1600个与180多个不同真实世界环境(如家庭和办公室)相关的问题。这些问题涵盖了七个类别,全方位地检验了人工智能在物体和属性识别、空间与功能推理以及常识性知识等方面的实力。
研究人员在今日发布的论文中阐述:“在此背景下,我们提出了具身问答(EQA)这一概念,它不仅是一个实用的终端应用,更是评估智能体对现实世界理解程度的有效手段。简而言之,EQA的任务就是深入解析环境,以便用自然语言回答与其相关的问题。”
OpenEQA项目位于人工智能研究的热点领域——计算机视觉、自然语言处理、知识表示和机器人技术的交叉点。其长远愿景是打造出能够感知、与世界互动、与人类自然沟通并利用知识助力我们日常生活的智能代理。
研究人员认为,这种“具身智能”在短期内主要有两大应用场景。一是作为嵌入增强现实眼镜或头戴式设备的AI助手,利用视频和其他传感器数据,为用户提供类似照相机般的记忆功能,帮助解答如“我把钥匙放在哪里了?”等问题。二是作为移动机器人,它们能够自主探索环境以收集信息,例如在家中搜索以回答“我还有咖啡剩下吗?”等问题。
为了构建这一具有挑战性的基准数据集,Meta的研究人员首先收集了真实世界环境的视频和3D扫描数据。随后,他们向人类展示这些视频,并请他们提出可能向能访问这些视觉数据的AI助手提出的问题。
最终收集到的1636个问题全面检验了广泛的感知和推理能力。例如,为了回答“餐桌周围有多少把椅子?”这一问题,AI需要能够识别场景中的物体,理解“周围”这一空间概念,并计算相关物体的数量。其他问题则要求AI具备关于物体用途和属性的基本常识。
每个问题还附有多个人类生成的答案,以应对问题的多种可能回答方式。为了评估AI代理的性能,研究人员利用大型语言模型进行自动评分,以衡量AI生成的答案与人类答案的相似度。