数据集:
covost2
任务:
自动语音识别计算机处理:
multilingual大小:
100K<n<1M批注创建人:
expert-generated预印本库:
arxiv:2007.10310许可:
cc-by-nc-4.0CoVoST 2 是一个覆盖21种语言到英语以及从英语到15种语言的大规模多语言语音翻译语料库。该数据集是使用Mozilla的开源项目Common Voice数据库中的众包语音录音创建的。数据集中包含总计2900小时的语音。
语音翻译:该数据集可用于语音到文本翻译(ST)。模型会接收来自一种语言的音频文件,并将其转录为另一种语言的书面文本。最常用的评估指标是BLEU分数。示例可以在此处找到: https://github.com/pytorch/fairseq/blob/master/examples/speech_to_text/docs/covost_example.md 。
该数据集包含以下语言的音频、转录和翻译:法语、德语、荷兰语、俄语、西班牙语、意大利语、土耳其语、波斯语、瑞典语、蒙古语、中文、威尔士语、加泰罗尼亚语、斯洛文尼亚语、爱沙尼亚语、印尼语、阿拉伯语、泰米尔语、葡萄牙语、拉脱维亚语和日语。
典型的数据点包括音频文件的路径,通常称为“file”,它的转录,称为“sentence”,以及目标语言中的翻译,称为“translation”。
{'client_id': 'd277a1f3904ae00b09b73122b87674e7c2c78e08120721f37b5577013ead08d1ea0c053ca5b5c2fb948df2c81f27179aef2c741057a17249205d251a8fe0e658', 'file': '/home/suraj/projects/fairseq_s2t/covst/dataset/en/clips/common_voice_en_18540003.mp3', 'audio': {'path': '/home/suraj/projects/fairseq_s2t/covst/dataset/en/clips/common_voice_en_18540003.mp3', 'array': array([-0.00048828, -0.00018311, -0.00137329, ..., 0.00079346, 0.00091553, 0.00085449], dtype=float32), 'sampling_rate': 48000}, 'id': 'common_voice_en_18540003', 'sentence': 'When water is scarce, avoid wasting it.', 'translation': 'Wenn Wasser knapp ist, verschwenden Sie es nicht.'}
file:.mp3格式的下载音频文件的路径。
audio:包含下载音频文件的路径、解码音频数组和采样率的字典。请注意,当访问音频列时:dataset[0]["audio"],音频文件会自动解码并重新采样为dataset.features["audio"].sampling_rate。解码和重新采样大量音频文件可能需要很长时间。因此,在访问"audio"列之前,先查询示例索引非常重要,即dataset[0]["audio"]应始终优于dataset["audio"][0]。
sentence:源语言中音频文件的转录。
translation:目标语言中音频文件的转录。
id:数据样本的唯一标识符。
config | train | validation | test |
---|---|---|---|
en_de | 289430 | 15531 | 15531 |
en_tr | 289430 | 15531 | 15531 |
en_fa | 289430 | 15531 | 15531 |
en_sv-SE | 289430 | 15531 | 15531 |
en_mn | 289430 | 15531 | 15531 |
en_zh-CN | 289430 | 15531 | 15531 |
en_cy | 289430 | 15531 | 15531 |
en_ca | 289430 | 15531 | 15531 |
en_sl | 289430 | 15531 | 15531 |
en_et | 289430 | 15531 | 15531 |
en_id | 289430 | 15531 | 15531 |
en_ar | 289430 | 15531 | 15531 |
en_ta | 289430 | 15531 | 15531 |
en_lv | 289430 | 15531 | 15531 |
en_ja | 289430 | 15531 | 15531 |
fr_en | 207374 | 14760 | 14760 |
de_en | 127834 | 13511 | 13511 |
es_en | 79015 | 13221 | 13221 |
ca_en | 95854 | 12730 | 12730 |
it_en | 31698 | 8940 | 8951 |
ru_en | 12112 | 6110 | 6300 |
zh-CN_en | 7085 | 4843 | 4898 |
pt_en | 9158 | 3318 | 4023 |
fa_en | 53949 | 3445 | 3445 |
et_en | 1782 | 1576 | 1571 |
mn_en | 2067 | 1761 | 1759 |
nl_en | 7108 | 1699 | 1699 |
tr_en | 3966 | 1624 | 1629 |
ar_en | 2283 | 1758 | 1695 |
sv-SE_en | 2160 | 1349 | 1595 |
lv_en | 2337 | 1125 | 1629 |
sl_en | 1843 | 509 | 360 |
ta_en | 1358 | 384 | 786 |
ja_en | 1119 | 635 | 684 |
id_en | 1243 | 792 | 844 |
cy_en | 1241 | 690 | 690 |
[需要更多信息]
[需要更多信息]
源语言的生产者是谁?[需要更多信息]
[需要更多信息]
标注者是谁?[需要更多信息]
该数据集包含在线上捐赠他们的声音的人。您同意不尝试确定数据集中演讲者的身份。
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
@misc{wang2020covost, title={CoVoST 2: A Massively Multilingual Speech-to-Text Translation Corpus}, author={Changhan Wang and Anne Wu and Juan Pino}, year={2020}, eprint={2007.10310}, archivePrefix={arXiv}, primaryClass={cs.CL}
感谢 @patil-suraj 提供该数据集。