数据集:

bond005/sova_rudevices

语言:

ru

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

crowdsourced

批注创建人:

expert-generated

源数据集:

extended

许可:

cc-by-4.0
英文

sova_rudevices 的 数据集卡片

数据集摘要

SOVA数据集是一个免费公开的STT/ASR数据集。它由几个部分组成,其中之一是SOVA RuDevices。该部分是由 SOVA.ai team 手动注释的大约100小时的16kHz俄语实时语音的声学语料库。

作者没有将数据集分为训练,验证和测试子集。因此,我不得不准备这个分割。训练子集包括超过82小时,验证子集包括约6小时,测试子集也包括约6小时。

支持的任务和排行榜

  • 自动语音识别:该数据集可用于训练自动语音识别(ASR)模型。模型会收到一个音频文件,并被要求将音频文件转录为书面文本。最常见的评估指标是字错误率(WER)。该任务在Hugging Face的排行榜上有活跃的参与者,可以在 https://huggingface.co/spaces/huggingface/hf-speech-bench 找到。该排行榜根据模型的WER对上传到Hub的模型进行排名。

语言

音频为俄语。

数据集结构

数据实例

典型的数据点包括音频数据,通常称为音频,并且还包括其转录,称为转录。不提供有关说话者和包含转录的段落的任何其他信息。

{'audio': {'path': '/home/bond005/datasets/sova_rudevices/data/train/00003ec0-1257-42d1-b475-db1cd548092e.wav',
  'array': array([  0.00787354,  0.00735474,  0.00714111, ...,
                   -0.00018311, -0.00015259, -0.00018311]), dtype=float32),
  'sampling_rate': 16000},
 'transcription': 'мне получше стало'}

数据字段

  • 音频:包含下载的音频文件路径,解码后的音频数组和采样率的字典。请注意,在访问音频列时:dataset[0]["audio"]会自动解码和重新采样为dataset.features["audio"].sampling_rate。解码和重新采样大量音频文件可能需要相当长的时间。因此,首先查询样本索引是很重要的,然后是“audio”列,即dataset[0]["audio"]应始终优先于dataset["audio"][0]。
  • 转录:音频文件的转录。

数据拆分

此数据集由三个拆分组成:训练、验证和测试。此拆分是根据SOVA RuDevices的内部结构实现的(验证拆分基于子目录0,测试拆分基于原始数据集的子目录1),但同一扬声器的音频记录可能同时位于不同的拆分中(反之不保证)。

Train Validation Test
examples 81607 5835 5799
hours 82.4h 5.9h 5.8h

数据集创建

策划理由

[需要更多信息]

源数据

数据收集和规范化

[需要更多信息]

谁是源语言制片人?

[需要更多信息]

注释

注释过程

所有录制的音频文件都是手动注释的。

谁是标注者?

[需要更多信息]

个人和敏感信息

该数据集包含捐赠他们声音的人。您同意不尝试确定此数据集中扬声器的身份。

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

该数据集最初由Egor Zubarev、Timofey Moskalets和SOVA.ai团队创建。

许可信息

Creative Commons BY 4.0

引用信息

@misc{sova2021rudevices,
  author = {Zubarev, Egor and Moskalets, Timofey and SOVA.ai},
  title = {SOVA RuDevices Dataset: free public STT/ASR dataset with manually annotated live speech},
  publisher = {GitHub},
  journal = {GitHub repository},
  year = {2021},
  howpublished = {\url{https://github.com/sovaai/sova-dataset}},
}

贡献

感谢 @bond005 添加了这个数据集。