数据集:

covost2

任务:

自动语音识别

语言:

计算机处理:

multilingual

大小:

100K<n<1M

语言创建人:

crowdsourced expert-generated

批注创建人:

expert-generated

源数据集:

extended|other-common-voice

预印本库:

arxiv:2007.10310

许可:

cc-by-nc-4.0

数据集介绍文件清单

英文

covost2 数据集卡片

数据集概述

CoVoST 2 是一个覆盖21种语言到英语以及从英语到15种语言的大规模多语言语音翻译语料库。该数据集是使用Mozilla的开源项目Common Voice数据库中的众包语音录音创建的。数据集中包含总计2900小时的语音。

支持的任务和排行榜

语音翻译：该数据集可用于语音到文本翻译（ST）。模型会接收来自一种语言的音频文件，并将其转录为另一种语言的书面文本。最常用的评估指标是BLEU分数。示例可以在此处找到： https://github.com/pytorch/fairseq/blob/master/examples/speech_to_text/docs/covost_example.md 。

语言

该数据集包含以下语言的音频、转录和翻译：法语、德语、荷兰语、俄语、西班牙语、意大利语、土耳其语、波斯语、瑞典语、蒙古语、中文、威尔士语、加泰罗尼亚语、斯洛文尼亚语、爱沙尼亚语、印尼语、阿拉伯语、泰米尔语、葡萄牙语、拉脱维亚语和日语。

数据集结构

数据实例

典型的数据点包括音频文件的路径，通常称为“file”，它的转录，称为“sentence”，以及目标语言中的翻译，称为“translation”。

{'client_id': 'd277a1f3904ae00b09b73122b87674e7c2c78e08120721f37b5577013ead08d1ea0c053ca5b5c2fb948df2c81f27179aef2c741057a17249205d251a8fe0e658',
 'file': '/home/suraj/projects/fairseq_s2t/covst/dataset/en/clips/common_voice_en_18540003.mp3',
 'audio': {'path': '/home/suraj/projects/fairseq_s2t/covst/dataset/en/clips/common_voice_en_18540003.mp3',
           'array': array([-0.00048828, -0.00018311, -0.00137329, ...,  0.00079346, 0.00091553,  0.00085449], dtype=float32),
           'sampling_rate': 48000},
 'id': 'common_voice_en_18540003',
 'sentence': 'When water is scarce, avoid wasting it.',
 'translation': 'Wenn Wasser knapp ist, verschwenden Sie es nicht.'}

数据字段

file：.mp3格式的下载音频文件的路径。
audio：包含下载音频文件的路径、解码音频数组和采样率的字典。请注意，当访问音频列时：dataset[0]["audio"]，音频文件会自动解码并重新采样为dataset.features["audio"].sampling_rate。解码和重新采样大量音频文件可能需要很长时间。因此，在访问"audio"列之前，先查询示例索引非常重要，即dataset[0]["audio"]应始终优于dataset["audio"][0]。
sentence：源语言中音频文件的转录。
translation：目标语言中音频文件的转录。
id：数据样本的唯一标识符。

数据拆分

config	train	validation	test
en_de	289430	15531	15531
en_tr	289430	15531	15531
en_fa	289430	15531	15531
en_sv-SE	289430	15531	15531
en_mn	289430	15531	15531
en_zh-CN	289430	15531	15531
en_cy	289430	15531	15531
en_ca	289430	15531	15531
en_sl	289430	15531	15531
en_et	289430	15531	15531
en_id	289430	15531	15531
en_ar	289430	15531	15531
en_ta	289430	15531	15531
en_lv	289430	15531	15531
en_ja	289430	15531	15531
fr_en	207374	14760	14760
de_en	127834	13511	13511
es_en	79015	13221	13221
ca_en	95854	12730	12730
it_en	31698	8940	8951
ru_en	12112	6110	6300
zh-CN_en	7085	4843	4898
pt_en	9158	3318	4023
fa_en	53949	3445	3445
et_en	1782	1576	1571
mn_en	2067	1761	1759
nl_en	7108	1699	1699
tr_en	3966	1624	1629
ar_en	2283	1758	1695
sv-SE_en	2160	1349	1595
lv_en	2337	1125	1629
sl_en	1843	509	360
ta_en	1358	384	786
ja_en	1119	635	684
id_en	1243	792	844
cy_en	1241	690	690

数据集创建

策划理由

[需要更多信息]

数据源

起始数据收集和归一化

[需要更多信息]

源语言的生产者是谁？

[需要更多信息]

注释

注释过程

[需要更多信息]

标注者是谁？

[需要更多信息]

个人和敏感信息

该数据集包含在线上捐赠他们的声音的人。您同意不尝试确定数据集中演讲者的身份。

使用数据时的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

CC BY-NC 4.0

引用信息

@misc{wang2020covost,
    title={CoVoST 2: A Massively Multilingual Speech-to-Text Translation Corpus},
    author={Changhan Wang and Anne Wu and Juan Pino},
    year={2020},
    eprint={2007.10310},
    archivePrefix={arXiv},
    primaryClass={cs.CL}

贡献者

感谢 @patil-suraj 提供该数据集。

作者:

佚名

数据集大小:

114.09 KB