M-AILABS语音数据集是我们首次提供的大型数据集,可以免费使用作为语音识别和语音合成的训练数据。
大部分数据基于LibriVox和Project Gutenberg。训练数据包括近千小时的音频和格式化的文本文件。
每个片段都提供了转录。片段的长度从1到20秒不等,总长度在下面的列表(以及相应的info.txt文件)中显示。
文本出版于1884年至1964年之间,属于公共领域。音频由LibriVox项目录制,也属于公共领域 - 除了乌克兰语。
乌克兰语音频由Nash Format或Gwara Media提供,仅用于机器学习目的(请查看数据的info.txt文件获取详细信息)。
法语
典型的数据点包括音频文件的路径,称为audio和其句子。
audio:包含下载的音频文件路径、解码的音频数组和采样率的字典。请注意,访问音频列时:dataset[0]["audio"],音频文件会自动解码并重新采样为dataset.features["audio"].sampling_rate。解码和重新采样大量音频文件可能需要较长时间。因此,重要的是首先查询样本索引,而不是查询"audio"列,即dataset[0]["audio"]应始终优先于dataset["audio"][0]。
sentence:用户被提示要说的句子
语音材料没有被分成部分,一切都在"train"拆分中。train拆分包含82825个音频片段和相关的句子。
@gigant 添加了此数据集。