数据集:

HuggingFaceM4/NoCaps

许可:

cc-by-2.0
英文

NoCaps 数据集卡片

数据集概述

NoCaps 是用于规模化的新颖对象描述的数据集,它包含了来自 Open Images 验证集和测试集的 15,100 张图像的 166,100 个人工生成的描述。相关的训练数据包括了 COCO 图像-描述对,以及 Open Images 的图像级标签和物体边界框。由于 Open Images 包含的类别远远多于 COCO,测试图像中的近400个对象类别缺少或没有相关的训练描述(因此称为 nocaps)。

支持的任务和排行榜

[需要更多信息]

语言

[需要更多信息]

数据集结构

数据实例

每个实例具有以下结构:

{
    'image': <PIL.JpegImagePlugin.JpegImageFile image mode=L size=732x1024 at 0x7F574A3A9B50>,
    'image_coco_url': 'https://s3.amazonaws.com/nocaps/val/0013ea2087020901.jpg',
    'image_date_captured': '2018-11-06 11:04:33',
    'image_file_name': '0013ea2087020901.jpg',
    'image_height': 1024,
    'image_width': 732,
    'image_id': 0,
    'image_license': 0,
    'image_open_images_id': '0013ea2087020901',
    'annotations_ids': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9],
    'annotations_captions': [
        'A baby is standing in front of a house.',
        'A little girl in a white jacket and sandals.',
        'A young child stands in front of a house.',
        'A child is wearing a white shirt and standing on a side walk. ',
        'A little boy is standing in his diaper with a white shirt on.',
        'A child wearing a diaper and shoes stands on the sidewalk.',
        'A child is wearing a light-colored shirt during the daytime.',
        'A little kid standing on the pavement in a shirt. ',
        'Black and white photo of a little girl smiling.',
        'a cute baby is standing alone with white shirt'
    ]
}

数据字段

  • image:图像
  • image_coco_url:图像的 URL
  • image_date_captured:图像的捕获日期
  • image_file_name:图像的文件名
  • image_height:图像的高度
  • image_width:图像的宽度
  • image_id:图像的 ID
  • image_license:不确定是什么,总是为0
  • image_open_images_id:Open Images 的图像 ID
  • annotations_ids:描述的唯一 ID(与 annotations_captions 一起使用)
  • annotations_captions:图像的描述(与 annotations_ids 一起使用)

数据划分

[需要更多信息]

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

资源语言的生产者是谁?

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏差讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

[需要更多信息]

贡献

感谢 @VictorSanh 添加了此数据集。