数据集:

MLCommons/ml_spoken_words

计算机处理:

multilingual

大小:

10M<n<100M

语言创建人:

other

批注创建人:

machine-generated

许可:

cc-by-4.0
英文

Multilingual Spoken Words数据集卡片

数据集概述

Multilingual Spoken Words Corpus是一个大型且不断增长的音频数据集,包含由超过50种语言共同使用的超过50亿人口的口语词,用于学术研究和商业应用中的关键词识别和口语搜索,采用CC-BY 4.0许可。该数据集包含超过340,000个关键词,总计2,340万个1秒的口语示例(超过6000小时)。该数据集具有多种用途,从语音启用的消费者设备到呼叫中心自动化。该数据集是通过在众包的句子级音频上应用强制对齐来生成的,以产生每个单词的时间估计以进行提取。数据集中包含了所有的对齐信息。

数据以两种格式提供:wav(16KHz)和opus(48KHz)。默认的配置看起来像“{lang}_{format}”,因此,例如,要加载Tatar格式的wav,请执行:

ds = load_dataset("MLCommons/ml_spoken_words", "tt_wav")

要在单个数据集中下载多种语言,请将这些语言的列表传递给语言参数:

ds = load_dataset("MLCommons/ml_spoken_words", languages=["ar", "tt", "br"])

要下载特定格式,请将其传递给格式参数(默认格式为wav):

ds = load_dataset("MLCommons/ml_spoken_words", languages=["ar", "tt", "br"], format="opus")

请注意,每当您提供不同的语言集时,即使您之前已经提供了其中一个或几个语言,也会重新生成示例,因为每次都会创建自定义配置(但不会重新下载数据)。

支持的任务和排行榜

关键词识别,口语搜索

语言

该数据集是多语言的。要指定要下载的多种语言,请将它们的列表传递给语言参数:

ds = load_dataset("MLCommons/ml_spoken_words", languages=["ar", "tt", "br"])

该数据集包含以下语言的数据:

低资源语言(小于10小时):

  • 阿拉伯语(0.1G,7.6小时)
  • 阿萨姆语(0.9M,0.1小时)
  • 布列塔尼语(69M,5.6小时)
  • 楚瓦什语(28M,2.1小时)
  • 中文(zh-CN)(42M,3.1小时)
  • 迪维西语(0.7M,0.04小时)
  • 弗里西语(0.1G,9.6小时)
  • 格鲁吉亚语(20M,1.4小时)
  • 瓜拉尼语(0.7M,1.3小时)
  • 希腊语(84M,6.7小时)
  • 克钦语(26M,0.1小时)
  • 豪萨语(90M,1.0小时)
  • 国际语(58M,4.0小时)
  • 爱尔兰语(38M,3.2小时)
  • 拉脱维亚语(51M,4.2小时)
  • 立陶宛语(21M,0.46小时)
  • 马耳他语(88M,7.3小时)
  • 乌利亚语(0.7M,0.1小时)
  • 罗马尼亚语(59M,4.5小时)
  • 雅库特语(42M,3.3小时)
  • 斯洛文尼亚语(43M,3.0小时)
  • 斯洛伐克语(31M,1.9小时)
  • 苏尔西尔万语(61M,4.8小时)
  • 泰米尔语(8.8M,0.6小时)
  • 瓦拉多语(14M,1.2小时)
  • 越南语(1.2M,0.1小时)

中资源语言(10至100小时):

  • 捷克语(0.3G,24小时)
  • 荷兰语(0.8G,70小时)
  • 爱沙尼亚语(0.2G,19小时)
  • 世界语(1.3G,77小时)
  • 印度尼西亚语(0.1G,11小时)
  • 吉尔吉斯语(0.1G,12小时)
  • 蒙古语(0.1G,12小时)
  • 葡萄牙语(0.7G,58小时)
  • 瑞典语(0.1G,12小时)
  • 塔塔尔语(4G,30小时)
  • 土耳其语(1.3G,29小时)
  • 乌克兰语(0.2G,18小时)

高资源语言(大于100小时):

  • 巴斯克语(1.7G,118小时)
  • 加泰罗尼亚语(8.7G,615小时)
  • 英语(26G,1957小时)
  • 法语(9.3G,754小时)
  • 德语(14G,1083小时)
  • 意大利语(2.2G,155小时)
  • 基尼亚鲁旺达语(6.1G,422小时)
  • 波斯语(4.5G,327小时)
  • 波兰语(1.8G,130小时)
  • 俄语(2.1G,137小时)
  • 西班牙语(4.9G,349小时)
  • 威尔士语(4.5G,108小时)

数据集结构

数据示例

{'file': 'абзар_common_voice_tt_17737010.opus',
 'is_valid': True,
 'language': 0,
 'speaker_id': '687025afd5ce033048472754c8d2cb1cf8a617e469866bbdb3746e2bb2194202094a715906f91feb1c546893a5d835347f4869e7def2e360ace6616fb4340e38',
 'gender': 0,
 'keyword': 'абзар',
 'audio': {'path': 'абзар_common_voice_tt_17737010.opus',
  'array': array([2.03458695e-34, 2.03458695e-34, 2.03458695e-34, ...,
         2.03458695e-34, 2.03458695e-34, 2.03458695e-34]),
  'sampling_rate': 48000}}

数据字段

  • file: 归一化的音频文件的相对路径
  • is_valid: 样本是否有效
  • language: 实例的语言。仅在向数据集加载程序提供多种语言时才有意义(例如 load_dataset("ml_spoken_words", languages=["ar", "tt"]) )
  • speaker_id: 发言者的唯一标识符。如果实例无效,则可能为“NA”
  • gender: 发言者的性别。可以是["MALE", "FEMALE", "OTHER", "NAN"]中的一个
  • keyword: 当前样本中的单词
  • audio: 包含音频文件相对路径、解码后的音频数组和采样率的字典。注意,当访问audio列时,dataset[0]["audio"]会自动解码并重新采样为dataset.features["audio"].sampling_rate。解码和重新采样大量音频文件可能需要很长时间。因此,首先查询样本索引再查询"audio"列非常重要,即dataset[0]["audio"]应始终优先于dataset["audio"][0]

数据拆分

每种语言的数据被分为训练集/验证集/测试集。

数据集创建

策划理由

[需要更多信息]

源数据

Initial Data Collection and Normalization

数据来自Common Voice数据集。

Who are the source language producers?

[需要更多信息]

注释

Annotation process

[需要更多信息]

Who are the annotators?

[需要更多信息]

个人和敏感信息

该数据集由在线捐赠自己的人的声音组成。您同意不试图确定发言者的身份。

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集维护者

[需要更多信息]

许可信息

该数据集使用 CC-BY 4.0 许可,并可用于关键词识别和口语搜索的学术研究和商业应用。

引用信息

@inproceedings{mazumder2021multilingual,
  title={Multilingual Spoken Words Corpus},
  author={Mazumder, Mark and Chitlangia, Sharad and Banbury, Colby and Kang, Yiping and Ciro, Juan Manuel and Achorn, Keith and Galvez, Daniel and Sabini, Mark and Mattson, Peter and Kanter, David and others},
  booktitle={Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 2)},
  year={2021}
}

贡献者

感谢 @polinaeterna 添加了该数据集。