模型:

Harveenchadha/wav2vec2-pretrained-clsril-23-10k

英文

概述

我们提供了一个基于自我监督学习的音频预训练模型CLSRIL-23(跨印度语言的跨语言语音表示),它可以从23种印度语言的原始音频中学习跨语言的语音表示。它是基于wav2vec2.0构建的,通过对掩码潜在语音表示进行对比任务训练,并共同学习所有语言共享的潜在语音量化。

Arxiv Link

Original Repo 以fairseq格式包含模型。

预训练数据集中的语言

Language Data (In Hrs)
Assamese 254.9
Bengali 331.3
Bodo 26.9
Dogri 17.1
English 819.7
Gujarati 336.7
Hindi 4563.7
Kannada 451.8
Kashmiri 67.8
Konkani 36.8
Maithili 113.8
Malayalam 297.7
Manipuri 171.9
Marathi 458.2
Nepali 31.6
Odia 131.4
Punjabi 486.05
Sanskrit 58.8
Santali 6.56
Sindhi 16
Tamil 542.6
Telugu 302.8
Urdu 259.68

训练存储库:

Experimentation 是建立在fairseq之上的平台。