数据集:

bond005/sberdevices_golos_10h_crowd

语言:

ru

计算机处理:

monolingual

大小:

10K<n<100K

批注创建人:

expert-generated

源数据集:

extended

预印本库:

arxiv:2106.10161

许可:

other
英文

sberdevices_golos_10h_crowd 的数据集卡片

数据集摘要

Sberdevices Golos 是由 SberDevices 团队(Alexander Denisenko,Angelina Kovalenko,Fedor Minkin 和 Nikolay Karpov)准备的一个包含约1200小时的16kHz俄语语音的语料库,数据来自众包平台,并进行了手动注释。

作者将所有数据集分为训练子集和测试子集。训练子集包括约1000小时。对于仅包含有限记录的实验,作者确定了较短长度的训练子集:100小时,10小时,1小时,10分钟。

此数据集是上述 Golos 的简化版本:

  • 它仅包括众包领域(不包括远场领域的任何声音);
  • 验证集是基于1小时训练子集构建的;
  • 训练集对应于10小时训练子集,但不包括来自1小时训练子集的声音;
  • 测试集是原始测试集的完整版本。

支持的任务和排名

  • automatic-speech-recognition:该数据集可用于训练自动语音识别(ASR)模型。模型接收音频文件并被要求将音频文件转录为书面文本。最常见的评估指标是字错误率(WER)。该任务有一个活跃的Hugging Face排行榜,可以在 https://huggingface.co/spaces/huggingface/hf-speech-bench 上找到。Leaderboard 根据提交到 Hub 上的模型的 WER 对其进行排名。

语言

语音为俄语。

数据集结构

数据实例

典型的数据点由音频数据(通常称为audio)和其转录(称为transcription)组成。未提供任何关于发言者和包含转录的语段的额外信息。

{'audio': {'path': None,
  'array': array([ 3.05175781e-05,  3.05175781e-05,  0.00000000e+00, ...,
                  -1.09863281e-03, -7.93457031e-04, -1.52587891e-04]), dtype=float64),
  'sampling_rate': 16000},
 'transcription': 'шестнадцатая часть сезона пять сериала лемони сникет тридцать три несчастья'}

数据字段

  • audio:包含下载音频文件的路径、解码后的音频数组和采样率的字典。请注意,在访问音频列时:dataset[0]["audio"] 音频文件将自动解码和重采样为 dataset.features["audio"].sampling_rate。解码和重采样大量音频文件可能需要大量时间。因此,在“audio”列之前首先查询样本索引非常重要,即dataset[0]["audio"] 应始终优先于dataset["audio"][0]。
  • transciption:音频文件的转录。

数据拆分

此数据集是原始 Golos 的简化版本:

  • 它仅包括众包领域(不包括远场领域的任何声音);
  • 验证集基于1小时训练子集构建;
  • 训练集对应于10小时训练子集,但不包括来自1小时训练子集的声音;
  • 测试集是原始测试集的完整版本。
Train Validation Test
examples 7993 793 9994
hours 8.9h 0.9h 11.2h

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和归一化

[需要更多信息]

谁是源语言生成者?

[需要更多信息]

标注

注释过程

所有记录的音频文件都在众包平台上进行了手动注释。

谁是注释者?

[需要更多信息]

个人和敏感信息

该数据集由捐赠其声音的人组成。您同意不尝试确定数据集中发言者的身份。

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

该数据集最初由 Alexander Denisenko,Angelina Kovalenko,Fedor Minkin 和 Nikolay Karpov 创建。

许可信息

Public license with attribution and conditions reserved

引用信息

@misc{karpov2021golos,
  author = {Karpov, Nikolay and Denisenko, Alexander and Minkin, Fedor},
  title = {Golos: Russian Dataset for Speech Research},
  publisher = {arXiv},
  year = {2021},
  url = {https://arxiv.org/abs/2106.10161}
}

贡献

感谢 @bond005 添加此数据集。