数据集:

HuggingFaceM4/COCO

预印本库:

arxiv:1405.0312

许可:

cc-by-4.0
英文

[数据集名称] 数据集卡片

数据集概要

MS COCO是一个大规模的目标检测、分割和字幕生成数据集。COCO拥有以下几个特点:目标分割、上下文中的识别、超像素物品分割、330K图像(>200K带标签)、150万个物体实例、80个物体类别、91个物品类别、每张图片5个字幕、250,000个人物关键点。

目前只有2014年的子集(带有Karpathy的注释和分割),但欢迎贡献COCO的2017年子集!

支持的任务和排行榜

[需要更多信息]

语言

[需要更多信息]

数据集结构

数据实例

每个实例具有以下结构:

{
    'image': <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=640x480 at 0x7F69C1BA8550>,
    'filepath': 'COCO_val2014_000000522418.jpg',
    'sentids': [681330, 686718, 688839, 693159, 693204],
    'filename': 'COCO_val2014_000000522418.jpg',
    'imgid': 1,
    'split': 'restval',
    'sentences': {
        'tokens': ['a', 'woman', 'wearing', 'a', 'net', 'on', 'her', 'head', 'cutting', 'a', 'cake'],
        'raw': 'A woman wearing a net on her head cutting a cake. ',
        'imgid': 1,
        'sentid': 681330
    },
    'cocoid': 522418
}

数据字段

[需要更多信息]

数据拆分

[需要更多信息]

数据集创建

配置选择理由

[需要更多信息]

数据源

初始数据收集和规范化

[需要更多信息]

谁是源语言的生成者?

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是注释者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

[需要更多信息]

贡献者

感谢 @VictorSanh 添加了这个数据集。