数据集:

google/cvss

预印本库:

arxiv:2201.03713

许可:

cc-by-4.0
英文

CVSS: 一个庞大的多语言语音到语音翻译语料库

CVSS是一个大规模的多语言到英语的语音到语音翻译语料库,包含了从21种语言到英语的句子级平行语音到语音翻译对。CVSS是从 Common Voice 语音语料库和 CoVoST 2 语音到文本翻译语料库中获得的。CVSS中的翻译语音是使用在 LibriTTS 语料库上训练的两个最先进的TTS模型合成的。

CVSS包括CoVoST 2中所有21个x-en语言对的两个版本的口译翻译,每个版本都提供独特的价值:

  • CVSS-C:所有的翻译语音都是以单一的规范说话者的声音。尽管是合成的,这些语音非常自然、清晰,并且具有一致的说话风格。这些特点有助于模型对目标语音进行建模,并能够产生适用于用户界面应用的高质量翻译语音。

  • CVSS-T:翻译语音是从相应的源语音转换而来的声音。每个翻译对的两侧声音相似,尽管是不同语言,使得这个数据集适用于建立在将语音翻译成不同语言时保留说话者声音的模型。

除了源语音来源于Common Voice,它们分别构成了两个多语言语音到语音翻译数据集,每个数据集约有1900小时的语音。

除了翻译语音,CVSS还提供了标准化的翻译文本,与翻译语音中的发音相匹配(例如数字、货币、首字母缩写等),这可用于模型训练和标准化评估。

请查阅 our paper 了解有关此语料库的详细描述,以及我们在这两个数据集上训练的基线模型。

加载数据

以下示例加载了CVSS语料库中发布的翻译语音(即目标语音)和标准化的翻译文本(即目标文本)。您需要单独加载源语音,以及可选地加载源文本,并通过文件名进行连接。

from datasets import load_dataset

# Load only ar-en and ja-en language pairs. Omitting the `languages` argument
# would load all the language pairs.
cvss_c = load_dataset('google/cvss', 'cvss_c', languages=['ar', 'ja'])

# Print the structure of the dataset.
print(cvss_c)

许可证

CVSS使用非常自由的 Creative Commons Attribution 4.0 International (CC BY 4.0) 许可证发布。

引用

引用CVSS语料库时,请引用本论文:

@inproceedings{jia2022cvss,
    title={{CVSS} Corpus and Massively Multilingual Speech-to-Speech Translation},
    author={Jia, Ye and Tadmor Ramanovich, Michelle and Wang, Quan and Zen, Heiga},
    booktitle={Proceedings of Language Resources and Evaluation Conference (LREC)},
    pages={6691--6703},
    year={2022}
}