数据集:

imvladikon/hebrew_speech_coursera

任务:

自动语音识别

语言:

大小:

1K<n<10K

数据集介绍文件清单

英文

数据集名称的数据集卡片

数据集概述

此数据集卡片旨在成为新数据集的基本模板。它是使用 this raw template 生成的。

支持的任务和排行榜

[需要更多信息]

语言

[需要更多信息]

数据集结构

数据实例

{'audio': {'path': '/root/.cache/huggingface/datasets/downloads/extracted/89efd3a0fa3ead3f0b8e432e8796697a738d4561b24ff91f4fb2cc25d86e9fb0/train/ccef55189b7843d49110228cb0a71bfa115.wav',
  'array': array([-0.01217651, -0.04351807, -0.06278992, ..., -0.00018311,
         -0.00146484, -0.00349426]),
  'sampling_rate': 16000},
 'sentence': 'מצד אחד ובתנועה הציונית הצעירה'}

数据字段

[需要更多信息]

数据拆分

train	validation
number of samples	20306	5076
hours	28.88	7.23

数据集创建

策划原理

[需要更多信息]

源数据

数据收集和规范化

[需要更多信息]

谁是源语言制片人？

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是注释者？

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

@misc{imvladikon2022hebrew_speech_coursera,
  author = {Gurevich, Vladimir},
  title = {Hebrew Speech Recognition Dataset: Coursera},
  year = {2022},
  howpublished = \url{https://huggingface.co/datasets/imvladikon/hebrew_speech_coursera},
}

贡献

[需要更多信息]

作者:

imvladikon

数据集大小:

12.43 GB