数据集:
bond005/sova_rudevices
语言:
ru计算机处理:
monolingual大小:
10K<n<100K语言创建人:
crowdsourced批注创建人:
expert-generated源数据集:
extended许可:
cc-by-4.0SOVA数据集是一个免费公开的STT/ASR数据集。它由几个部分组成,其中之一是SOVA RuDevices。该部分是由 SOVA.ai team 手动注释的大约100小时的16kHz俄语实时语音的声学语料库。
作者没有将数据集分为训练,验证和测试子集。因此,我不得不准备这个分割。训练子集包括超过82小时,验证子集包括约6小时,测试子集也包括约6小时。
音频为俄语。
典型的数据点包括音频数据,通常称为音频,并且还包括其转录,称为转录。不提供有关说话者和包含转录的段落的任何其他信息。
{'audio': {'path': '/home/bond005/datasets/sova_rudevices/data/train/00003ec0-1257-42d1-b475-db1cd548092e.wav', 'array': array([ 0.00787354, 0.00735474, 0.00714111, ..., -0.00018311, -0.00015259, -0.00018311]), dtype=float32), 'sampling_rate': 16000}, 'transcription': 'мне получше стало'}
此数据集由三个拆分组成:训练、验证和测试。此拆分是根据SOVA RuDevices的内部结构实现的(验证拆分基于子目录0,测试拆分基于原始数据集的子目录1),但同一扬声器的音频记录可能同时位于不同的拆分中(反之不保证)。
Train | Validation | Test | |
---|---|---|---|
examples | 81607 | 5835 | 5799 |
hours | 82.4h | 5.9h | 5.8h |
[需要更多信息]
[需要更多信息]
谁是源语言制片人?[需要更多信息]
所有录制的音频文件都是手动注释的。
谁是标注者?[需要更多信息]
该数据集包含捐赠他们声音的人。您同意不尝试确定此数据集中扬声器的身份。
[需要更多信息]
[需要更多信息]
[需要更多信息]
该数据集最初由Egor Zubarev、Timofey Moskalets和SOVA.ai团队创建。
@misc{sova2021rudevices, author = {Zubarev, Egor and Moskalets, Timofey and SOVA.ai}, title = {SOVA RuDevices Dataset: free public STT/ASR dataset with manually annotated live speech}, publisher = {GitHub}, journal = {GitHub repository}, year = {2021}, howpublished = {\url{https://github.com/sovaai/sova-dataset}}, }
感谢 @bond005 添加了这个数据集。