数据集:

gigant/african_accented_french

语言:

fr

许可:

cc
英文

数据集概述

该语料库包含约22小时的语音录音。对所有录音都提供了转录内容。该语料库可分为三个部分:

  • Yaounde
  • 该部分由美国军事学院技术增强语言学习中心(CTELL)的小组于2003年在喀麦隆雅温得收集。录音中包含了来自84位发言人的录音,其中48位为男性,36位为女性。

  • CA16
  • 该部分由RDECOM科学小组于2016年6月参与联合国演习卡尔布16(CA16)在加蓬利伯维尔收集。科学小组成员包括DARPA的Boyan Onyshkevich博士和Aaron Lawson博士(SRI国际公司),以及RDECOM科学家。录音中包含了来自喀麦隆,乍得,刚果和加蓬的125位发言人的录音。

  • Niger
  • 该部分是从尼日尔尼亚美收集的,时间为2015年10月26日至30日。这些发言人是军官和中士课程的学员,该课程由美国陆军派驻非洲的军官和教官进行培训。数据的收集工作由RDECOM科学与技术顾问Major Eddie Strimel和Bill Bergen先生完成。

    语言

    法语

    数据集结构

    数据实例

    典型的数据点包括音频文件的路径,称为音频文件以及句子。

    数据字段

    • 音频:包含下载的音频文件路径、解码后的音频数组和采样率的字典。请注意,在访问音频列时,dataset[0]["audio"]会自动解码和重新采样为dataset.features["audio"].sampling_rate。解码和重新采样大量音频文件可能需要相当长的时间。因此,在访问"audio"列之前,最好先查询样本索引,即dataset[0]["audio"]应始终优先于dataset["audio"][0]。

    • 句子:用户被提示要说的句子

    数据拆分

    这些语音材料已经分为训练集和测试集。训练集包含9401个音频剪辑和相关的句子。测试集包含1985个音频剪辑和相关的句子。

    贡献

    @gigant 添加了此数据集。