数据集:

Bingsu/Human_Action_Recognition

语言:

en

大小:

10K<n<100K

源数据集:

original

许可:

odbl
英文

数据集概述

一个来自 kaggle 的数据集,原始数据: https://dphi.tech/challenges/data-sprint-76-human-activity-recognition/233/data

介绍

  • 数据集包含15种不同类别的人类活动。
  • 数据集包含约12k+个带有标签的图像,包括验证图像。
  • 每个图像只有一个人类活动类别,并保存在各个类别的文件夹中。

问题陈述

  • 人类行为识别 (HAR) 旨在理解人类行为并为每个动作分配一个标签。它具有广泛的应用领域,因此在计算机视觉领域引起了越来越多的关注。人类行为可以用各种数据模态表示,例如 RGB、骨架、深度、红外、点云、事件流、音频、加速度、雷达和 WiFi 信号,它们编码了不同的有用且独立的信息源,并且在应用场景上具有各种优势。
  • 因此,许多现有的工作尝试使用各种模态来调查HAR的不同类型的方法。
  • 你的任务是构建一个使用CNN的图像分类模型,将人类的活动分类到哪个类别。

关于文件

  • Train - 包含用于训练模型的所有图像。在此文件夹中,你会找到15个文件夹,分别是 - 'calling'、'clapping'、'cycling'、'dancing'、'drinking'、'eating'、'fighting'、'hugging'、'laughing'、'listeningtomusic'、'running'、'sitting'、'sleeping'、'texting'、'using_laptop',其中包含了各个人类活动的图像。
  • Test - 包含5400个人类活动图像。对于这些图像,你需要预测它们对应的类别名称 - 'calling'、'clapping'、'cycling'、'dancing'、'drinking'、'eating'、'fighting'、'hugging'、'laughing'、'listeningtomusic'、'running'、'sitting'、'sleeping'、'texting'、'using_laptop'。
  • Testing_set.csv - 这是每个图像预测结果在平台上提交的顺序。确保你下载的预测结果与该文件中给出的顺序相同。
  • sample_submission:这是一个包含数据竞赛样本提交的csv文件。

数据字段

数据实例具有以下字段:

  • image:包含图像的 PIL.Image.Image 对象。注意,在访问图像列时,dataset[0]["image"] 自动解码图像文件。解码大量图像文件可能需要很长时间。因此,首先查询样本索引很重要,即 dataset[0]["image"] 应优先于 dataset["image"][0]。
  • labels:一个整数分类标签。所有测试数据标签为0。

类标签映射:

{
    'calling': 0,
    'clapping': 1,
    'cycling': 2,
    'dancing': 3,
    'drinking': 4,
    'eating': 5,
    'fighting': 6,
    'hugging': 7,
    'laughing': 8,
    'listening_to_music': 9,
    'running': 10,
    'sitting': 11,
    'sleeping': 12,
    'texting': 13,
    'using_laptop': 14
}

数据拆分

train test
# of examples 12600 5400

数据大小

  • 下载:311.96 MiB
  • 生成:312.59 MiB
  • 总计:624.55 MiB
>>> from datasets import load_dataset

>>> ds = load_dataset("Bingsu/Human_Action_Recognition")
>>> ds
DatasetDict({
    test: Dataset({
        features: ['image', 'labels'],
        num_rows: 5400
    })
    train: Dataset({
        features: ['image', 'labels'],
        num_rows: 12600
    })
})

>>> ds["train"].features
{'image': Image(decode=True, id=None),
 'labels': ClassLabel(num_classes=15, names=['calling', 'clapping', 'cycling', 'dancing', 'drinking', 'eating', 'fighting', 'hugging', 'laughing', 'listening_to_music', 'running', 'sitting', 'sleeping', 'texting', 'using_laptop'], id=None)}
 
>>> ds["train"][0]
{'image': <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=240x160>,
 'labels': 11}