数据集:

imvladikon/hebrew_speech_kan

任务:

自动语音识别

语言:

大小:

1K<n<10K

数据集介绍文件清单

英文

数据集名称的数据集卡片

数据集摘要

ASR的希伯来语数据集

支持的任务和排行榜

[需要更多信息]

语言

[需要更多信息]

数据集结构

数据实例

{'audio': {'path': '/root/.cache/huggingface/datasets/downloads/extracted/8ce7402f6482c6053251d7f3000eec88668c994beb48b7ca7352e77ef810a0b6/train/e429593fede945c185897e378a5839f4198.wav',
  'array': array([-0.00265503, -0.0018158 , -0.00149536, ..., -0.00135803,
         -0.00231934, -0.00190735]),
  'sampling_rate': 16000},
 'sentence': 'היא מבינה אותי יותר מכל אחד אחר'}

数据字段

[需要更多信息]

数据拆分

train	validation
number of samples	8000	2000
hours	6.92	1.73

数据集创建

策划理由

从YouTube（频道"כאן"）抓取数据，通过长度和音频与句子长度之间的比例移除异常值

源数据

初始数据收集和规范化语言的原始数据贡献者是谁？

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁？

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

@misc{imvladikon2022hebrew_speech_kan,
  author = {Gurevich, Vladimir},
  title = {Hebrew Speech Recognition Dataset: Kan},
  year = {2022},
  howpublished = \url{https://huggingface.co/datasets/imvladikon/hebrew_speech_kan},
}

贡献

[需要更多信息]

作者:

imvladikon

数据集大小:

3.5 GB