数据集:

bond005/sova_rudevices

任务:

自动语音识别

音频分类

语言:

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

crowdsourced

批注创建人:

expert-generated

源数据集:

extended

许可:

cc-by-4.0

数据集介绍文件清单

英文

sova_rudevices 的数据集卡片

数据集摘要

SOVA数据集是一个免费公开的STT/ASR数据集。它由几个部分组成，其中之一是SOVA RuDevices。该部分是由 SOVA.ai team 手动注释的大约100小时的16kHz俄语实时语音的声学语料库。

作者没有将数据集分为训练，验证和测试子集。因此，我不得不准备这个分割。训练子集包括超过82小时，验证子集包括约6小时，测试子集也包括约6小时。

支持的任务和排行榜

自动语音识别：该数据集可用于训练自动语音识别（ASR）模型。模型会收到一个音频文件，并被要求将音频文件转录为书面文本。最常见的评估指标是字错误率（WER）。该任务在Hugging Face的排行榜上有活跃的参与者，可以在 https://huggingface.co/spaces/huggingface/hf-speech-bench 找到。该排行榜根据模型的WER对上传到Hub的模型进行排名。

语言

音频为俄语。

数据集结构

数据实例

典型的数据点包括音频数据，通常称为音频，并且还包括其转录，称为转录。不提供有关说话者和包含转录的段落的任何其他信息。

{'audio': {'path': '/home/bond005/datasets/sova_rudevices/data/train/00003ec0-1257-42d1-b475-db1cd548092e.wav',
  'array': array([  0.00787354,  0.00735474,  0.00714111, ...,
                   -0.00018311, -0.00015259, -0.00018311]), dtype=float32),
  'sampling_rate': 16000},
 'transcription': 'мне получше стало'}

数据字段

音频：包含下载的音频文件路径，解码后的音频数组和采样率的字典。请注意，在访问音频列时：dataset[0]["audio"]会自动解码和重新采样为dataset.features["audio"].sampling_rate。解码和重新采样大量音频文件可能需要相当长的时间。因此，首先查询样本索引是很重要的，然后是“audio”列，即dataset[0]["audio"]应始终优先于dataset["audio"][0]。
转录：音频文件的转录。

数据拆分

此数据集由三个拆分组成：训练、验证和测试。此拆分是根据SOVA RuDevices的内部结构实现的（验证拆分基于子目录0，测试拆分基于原始数据集的子目录1），但同一扬声器的音频记录可能同时位于不同的拆分中（反之不保证）。

Train	Validation	Test
examples	81607	5835	5799
hours	82.4h	5.9h	5.8h

数据集创建

策划理由

[需要更多信息]

源数据

数据收集和规范化

[需要更多信息]

谁是源语言制片人？

[需要更多信息]

注释

注释过程

所有录制的音频文件都是手动注释的。

谁是标注者？

[需要更多信息]

个人和敏感信息

该数据集包含捐赠他们声音的人。您同意不尝试确定此数据集中扬声器的身份。

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

该数据集最初由Egor Zubarev、Timofey Moskalets和SOVA.ai团队创建。

许可信息

Creative Commons BY 4.0

引用信息

@misc{sova2021rudevices,
  author = {Zubarev, Egor and Moskalets, Timofey and SOVA.ai},
  title = {SOVA RuDevices Dataset: free public STT/ASR dataset with manually annotated live speech},
  publisher = {GitHub},
  journal = {GitHub repository},
  year = {2021},
  howpublished = {\url{https://github.com/sovaai/sova-dataset}},
}

贡献

感谢 @bond005 添加了这个数据集。

作者:

bond005

数据集大小:

9.94 GB

sova_rudevices 的 数据集卡片

数据集摘要

支持的任务和排行榜

语言

数据集结构

数据实例

数据字段

数据拆分

数据集创建

策划理由

源数据

注释

个人和敏感信息

使用数据的注意事项

数据的社会影响

偏见讨论

其他已知限制

其他信息

数据集策划者

许可信息

引用信息

贡献

sova_rudevices 的数据集卡片