数据集:

covost2

英文

covost2 数据集卡片

数据集概述

CoVoST 2 是一个覆盖21种语言到英语以及从英语到15种语言的大规模多语言语音翻译语料库。该数据集是使用Mozilla的开源项目Common Voice数据库中的众包语音录音创建的。数据集中包含总计2900小时的语音。

支持的任务和排行榜

语音翻译:该数据集可用于语音到文本翻译(ST)。模型会接收来自一种语言的音频文件,并将其转录为另一种语言的书面文本。最常用的评估指标是BLEU分数。示例可以在此处找到: https://github.com/pytorch/fairseq/blob/master/examples/speech_to_text/docs/covost_example.md

语言

该数据集包含以下语言的音频、转录和翻译:法语、德语、荷兰语、俄语、西班牙语、意大利语、土耳其语、波斯语、瑞典语、蒙古语、中文、威尔士语、加泰罗尼亚语、斯洛文尼亚语、爱沙尼亚语、印尼语、阿拉伯语、泰米尔语、葡萄牙语、拉脱维亚语和日语。

数据集结构

数据实例

典型的数据点包括音频文件的路径,通常称为“file”,它的转录,称为“sentence”,以及目标语言中的翻译,称为“translation”。

{'client_id': 'd277a1f3904ae00b09b73122b87674e7c2c78e08120721f37b5577013ead08d1ea0c053ca5b5c2fb948df2c81f27179aef2c741057a17249205d251a8fe0e658',
 'file': '/home/suraj/projects/fairseq_s2t/covst/dataset/en/clips/common_voice_en_18540003.mp3',
 'audio': {'path': '/home/suraj/projects/fairseq_s2t/covst/dataset/en/clips/common_voice_en_18540003.mp3',
           'array': array([-0.00048828, -0.00018311, -0.00137329, ...,  0.00079346, 0.00091553,  0.00085449], dtype=float32),
           'sampling_rate': 48000},
 'id': 'common_voice_en_18540003',
 'sentence': 'When water is scarce, avoid wasting it.',
 'translation': 'Wenn Wasser knapp ist, verschwenden Sie es nicht.'}

数据字段

  • file:.mp3格式的下载音频文件的路径。

  • audio:包含下载音频文件的路径、解码音频数组和采样率的字典。请注意,当访问音频列时:dataset[0]["audio"],音频文件会自动解码并重新采样为dataset.features["audio"].sampling_rate。解码和重新采样大量音频文件可能需要很长时间。因此,在访问"audio"列之前,先查询示例索引非常重要,即dataset[0]["audio"]应始终优于dataset["audio"][0]。

  • sentence:源语言中音频文件的转录。

  • translation:目标语言中音频文件的转录。

  • id:数据样本的唯一标识符。

数据拆分

config train validation test
en_de 289430 15531 15531
en_tr 289430 15531 15531
en_fa 289430 15531 15531
en_sv-SE 289430 15531 15531
en_mn 289430 15531 15531
en_zh-CN 289430 15531 15531
en_cy 289430 15531 15531
en_ca 289430 15531 15531
en_sl 289430 15531 15531
en_et 289430 15531 15531
en_id 289430 15531 15531
en_ar 289430 15531 15531
en_ta 289430 15531 15531
en_lv 289430 15531 15531
en_ja 289430 15531 15531
fr_en 207374 14760 14760
de_en 127834 13511 13511
es_en 79015 13221 13221
ca_en 95854 12730 12730
it_en 31698 8940 8951
ru_en 12112 6110 6300
zh-CN_en 7085 4843 4898
pt_en 9158 3318 4023
fa_en 53949 3445 3445
et_en 1782 1576 1571
mn_en 2067 1761 1759
nl_en 7108 1699 1699
tr_en 3966 1624 1629
ar_en 2283 1758 1695
sv-SE_en 2160 1349 1595
lv_en 2337 1125 1629
sl_en 1843 509 360
ta_en 1358 384 786
ja_en 1119 635 684
id_en 1243 792 844
cy_en 1241 690 690

数据集创建

策划理由

[需要更多信息]

数据源

起始数据收集和归一化

[需要更多信息]

源语言的生产者是谁?

[需要更多信息]

注释

注释过程

[需要更多信息]

标注者是谁?

[需要更多信息]

个人和敏感信息

该数据集包含在线上捐赠他们的声音的人。您同意不尝试确定数据集中演讲者的身份。

使用数据时的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

CC BY-NC 4.0

引用信息

@misc{wang2020covost,
    title={CoVoST 2: A Massively Multilingual Speech-to-Text Translation Corpus},
    author={Changhan Wang and Anne Wu and Juan Pino},
    year={2020},
    eprint={2007.10310},
    archivePrefix={arXiv},
    primaryClass={cs.CL}

贡献者

感谢 @patil-suraj 提供该数据集。