数据集:
michelecafagna26/hl
高级层次(HL)数据集对齐了来自 COCO 的面向对象的描述和通过众包沿着三个轴:场景、动作、理性采集的高级描述。
HL数据集包含来自COCO的149997张图像,共有134973个众包生成的高级描述(每个轴上三个描述),与COCO中的约749984个面向对象的描述对齐。
收集每个轴时会问以下三个问题:
高级描述捕捉了图像的人类解释。这些解释包含与物理对象直接相关的抽象概念。每个高级描述都附有一个置信度分数,由独立的工人根据相应的图像、问题和描述测量高级描述的可能性程度。得分越高,高级标题与常识越接近(在Likert评分1-5之间)。
英文
该数据集提供了来自COCO的图像和包含注释的两个元数据jsonl文件。
实例的样子如下:
{ "file_name": "COCO_train2014_000000138878.jpg", "captions": { "scene": [ "in a car", "the picture is taken in a car", "in an office." ], "action": [ "posing for a photo", "the person is posing for a photo", "he's sitting in an armchair." ], "rationale": [ "to have a picture of himself", "he wants to share it with his friends", "he's working and took a professional photo." ], "object": [ "A man sitting in a car while wearing a shirt and tie.", "A man in a car wearing a dress shirt and tie.", "a man in glasses is wearing a tie", "Man sitting in the car seat with button up and tie", "A man in glasses and a tie is near a window." ] }, "confidence": { "scene": [ 5, 5, 4 ], "action": [ 5, 5, 4 ], "rationale": [ 5, 5, 4 ] }, "purity": { "scene": [ -1.1760284900665283, -1.0889461040496826, -1.442818284034729 ], "action": [ -1.0115827322006226, -0.5917857885360718, -1.6931917667388916 ], "rationale": [ -1.0546956062316895, -0.9740906357765198, -1.2204363346099854 ] }, "diversity": { "scene": 25.965358893403383, "action": 32.713305568898775, "rationale": 2.658757840479801 } }
有14997个图像和134973个高级字幕,分为:
该数据集在亚马逊机械土耳其上进行了众包。从论文中:
我们从COCO 2014的训练验证数据集中随机选择了14997个图像。为了回答与动作和理性相关的问题,我们需要确保图像中存在主体。因此,我们利用COCO中提供的实体注释选择包含至少一个人的图像。整个注释是在亚马逊机械土耳其上进行的(AMT)。我们将工作负载分成批次,以便轻松监控所收集数据的质量。每个图像由三个不同的注释者注释,因此我们针对每个轴收集三个注释。
从论文中:
在这项工作中,我们解决了在视觉模态中地位较高的语言概念的问题,提出了高级层次(HL)数据集:这是一个将现有的面向对象的字幕与图像的三个不同轴向上使用人工收集的高级描述对齐的V&L资源:场景,动作和理性。高级字幕捕捉了场景的人类解释,提供了与当前V&L数据集中使用的面向对象字幕(例如COCO)互补的抽象语言概念。我们更进一步,收集了置信度评分,以区分常识假设和主观解释,并从各种语义和词汇方面对我们的数据进行了特征化。
从论文中:
试点:我们进行了一项试点研究,旨在收集反馈并定义任务说明。根据试点研究结果,我们设计了任务的beta版本,并在众包平台上运行了一小批案例。我们手动检查结果,并在最终进行注释之前进一步完善说明和任务的表述。附录D显示了最终的注释表单。
注释过程:向参与者显示一张图像,并提出关于三个方面或轴的三个问题:场景、动作和理由,即图片在哪里拍摄的?,主题正在做什么?,主题为什么这样做?。我们明确要求参与者使用他们对场景的个人解释,并在说明中提供示例和建议以进一步指导注释工作人员。此外,与其他VQA数据集(如Antol et al., 2015和Zhu et al., 2016)不同,这些数据集中每个问题可以涉及图像中的不同实体,我们系统地对同一主体的每个图像进行相同的三个问题的问询。完整的说明见图1。有关注释成本的详细信息,请参见附录A。
哪些人是注释者?来自亚马逊机械土耳其的众包者
没有个人或敏感信息
【需要更多信息】
【需要更多信息】
【需要更多信息】
从论文中:
量化语法错误:我们要求两位专家注释者纠正9900个字幕样本中的语法错误,其中900个样本在两位注释者之间共享。向注释者展示图像字幕对,并在他们识别到语法错误时要求他们编辑字幕。注释者报告的最常见错误有:
为了量化纠正后的字幕与原字幕之间的差异程度,我们计算它们之间的Levenshtein距离(Levenshtein, 1966)。我们观察到样本中有22.5%被编辑,而仅有5%的编辑距离大于10。这表明整体上具有合理的语法质量,没有严重的语法问题。这也可以通过图2中报告的Levenshtein距离分布观察到。此外,由于我们在共享样本上观察到适度的注释者一致性(alpha = 0.507,根据(Krippendorff, 2018)计算),因此人工评估是相当可靠的。
Michele Cafagna
图像和面向对象的字幕遵循 COCO terms of Use 协议。其余的注释根据Apache-2.0许可证授权。
@inproceedings{Cafagna2023HLDG, title={HL Dataset: Grounding High-Level Linguistic Concepts in Vision}, author={Michele Cafagna and Kees van Deemter and Albert Gatt}, year={2023} }