数据集:

vivos

任务:

自动语音识别

语言:

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

crowdsourced expert-generated

批注创建人:

expert-generated

源数据集:

original

许可:

cc-by-nc-sa-4.0

数据集介绍文件清单

英文

VIVOS 数据集卡片

数据集概述

VIVOS 是一个免费的越南语音语料库，包含15小时的语音录制，为越南语自动语音识别任务而准备。

该语料库由VNUHCM - 科学大学的计算机科学实验室AILAB准备，由Vu Hai Quan教授领导。

我们发布这个语料库是希望吸引更多的科学家来解决越南语语音识别问题。

支持的任务和排行榜

[需要更多信息]

语言

越南语

数据集结构

数据实例

一个典型的数据点由音频文件的路径组成，称为路径，以及它的转录，称为句子。提供了有关发言人和包含转录的段落的一些其他信息。

{'speaker_id': 'VIVOSSPK01',
 'path': '/home/admin/.cache/huggingface/datasets/downloads/extracted/b7ded9969e09942ab65313e691e6fc2e12066192ee8527e21d634aca128afbe2/vivos/train/waves/VIVOSSPK01/VIVOSSPK01_R001.wav',
 'audio': {'path': '/home/admin/.cache/huggingface/datasets/downloads/extracted/b7ded9969e09942ab65313e691e6fc2e12066192ee8527e21d634aca128afbe2/vivos/train/waves/VIVOSSPK01/VIVOSSPK01_R001.wav',
           'array': array([-0.00048828, -0.00018311, -0.00137329, ...,  0.00079346, 0.00091553,  0.00085449], dtype=float32),
           'sampling_rate': 16000},
 'sentence': 'KHÁCH SẠN'}

数据字段

speaker_id：记录音频的发言人（声音）的ID
path：音频文件的路径
audio：包含已下载的音频文件的路径、解码的音频数组和采样率的字典。注意，当访问音频列时：dataset [0] ["audio"] ，音频文件会自动解码并重新采样到dataset.features["audio"].sampling_rate。解码和重新采样大量音频文件可能需要很长时间。因此，首先查询样本索引非常重要，然后再查询“audio”列，即dataset [0] ["audio"] 应始终优先于dataset["audio"][0]。
sentence：用户要求发言的句子

数据拆分

语音材料已经分成了训练和测试部分。

在安静的环境中使用高质量的麦克风录制语音，要求演讲者逐句朗读。

Train	Test
Speakers	46	19
Utterances	11660	760
Duration	14:55	00:45
Unique Syllables	4617	1692

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

谁是源语言的制作者？

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是注释者？

[需要更多信息]

个人和敏感信息

该数据集包含在线捐赠声音的人们。您同意不尝试确定数据集中发言人的身份。

使用数据时的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

仅供研究目的提供的数据集。请查看数据集许可证以获取其他信息。

其他信息

数据集策划者

该数据集最初由VNUHCM - 科学大学的AILAB计算机科学实验室准备。

许可信息

公共领域，知识共享署名非商业相同方式分享v4.0 （ CC BY-NC-SA 4.0 ）

引用信息

@inproceedings{luong-vu-2016-non,
    title = "A non-expert {K}aldi recipe for {V}ietnamese Speech Recognition System",
    author = "Luong, Hieu-Thi  and
      Vu, Hai-Quan",
    booktitle = "Proceedings of the Third International Workshop on Worldwide Language Service Infrastructure and Second Workshop on Open Infrastructures and Analysis Frameworks for Human Language Technologies ({WLSI}/{OIAF}4{HLT}2016)",
    month = dec,
    year = "2016",
    address = "Osaka, Japan",
    publisher = "The COLING 2016 Organizing Committee",
    url = "https://aclanthology.org/W16-5207",
    pages = "51--55",
}

贡献

感谢 @binh234 添加了这个数据集。

作者:

佚名

数据集大小:

1.37 GB