gigant/m-ailabs_speech_dataset_fr | ATYUN.COM 官网-人工智能教程资讯全方位服务平台

数据集:

gigant/m-ailabs_speech_dataset_fr

任务:

语言:

许可:

M-AILABS语音数据集是我们首次提供的大型数据集，可以免费使用作为语音识别和语音合成的训练数据。

大部分数据基于LibriVox和Project Gutenberg。训练数据包括近千小时的音频和格式化的文本文件。

每个片段都提供了转录。片段的长度从1到20秒不等，总长度在下面的列表（以及相应的info.txt文件）中显示。

文本出版于1884年至1964年之间，属于公共领域。音频由LibriVox项目录制，也属于公共领域 - 除了乌克兰语。

乌克兰语音频由Nash Format或Gwara Media提供，仅用于机器学习目的（请查看数据的info.txt文件获取详细信息）。

法语

数据集结构

典型的数据点包括音频文件的路径，称为audio和其句子。

audio：包含下载的音频文件路径、解码的音频数组和采样率的字典。请注意，访问音频列时：dataset[0]["audio"]，音频文件会自动解码并重新采样为dataset.features["audio"].sampling_rate。解码和重新采样大量音频文件可能需要较长时间。因此，重要的是首先查询样本索引，而不是查询"audio"列，即dataset[0]["audio"]应始终优先于dataset["audio"][0]。
sentence：用户被提示要说的句子

语音材料没有被分成部分，一切都在"train"拆分中。train拆分包含82825个音频片段和相关的句子。

@gigant 添加了此数据集。

作者:

gigant

数据集大小:

7.11 KB