数据集:
MLCommons/ml_spoken_words
任务:
音频分类计算机处理:
multilingual大小:
10M<n<100M语言创建人:
other批注创建人:
machine-generated源数据集:
extended|common_voice许可:
cc-by-4.0Multilingual Spoken Words Corpus是一个大型且不断增长的音频数据集,包含由超过50种语言共同使用的超过50亿人口的口语词,用于学术研究和商业应用中的关键词识别和口语搜索,采用CC-BY 4.0许可。该数据集包含超过340,000个关键词,总计2,340万个1秒的口语示例(超过6000小时)。该数据集具有多种用途,从语音启用的消费者设备到呼叫中心自动化。该数据集是通过在众包的句子级音频上应用强制对齐来生成的,以产生每个单词的时间估计以进行提取。数据集中包含了所有的对齐信息。
数据以两种格式提供:wav(16KHz)和opus(48KHz)。默认的配置看起来像“{lang}_{format}”,因此,例如,要加载Tatar格式的wav,请执行:
ds = load_dataset("MLCommons/ml_spoken_words", "tt_wav")
要在单个数据集中下载多种语言,请将这些语言的列表传递给语言参数:
ds = load_dataset("MLCommons/ml_spoken_words", languages=["ar", "tt", "br"])
要下载特定格式,请将其传递给格式参数(默认格式为wav):
ds = load_dataset("MLCommons/ml_spoken_words", languages=["ar", "tt", "br"], format="opus")
请注意,每当您提供不同的语言集时,即使您之前已经提供了其中一个或几个语言,也会重新生成示例,因为每次都会创建自定义配置(但不会重新下载数据)。
关键词识别,口语搜索
该数据集是多语言的。要指定要下载的多种语言,请将它们的列表传递给语言参数:
ds = load_dataset("MLCommons/ml_spoken_words", languages=["ar", "tt", "br"])
该数据集包含以下语言的数据:
低资源语言(小于10小时):
中资源语言(10至100小时):
高资源语言(大于100小时):
{'file': 'абзар_common_voice_tt_17737010.opus', 'is_valid': True, 'language': 0, 'speaker_id': '687025afd5ce033048472754c8d2cb1cf8a617e469866bbdb3746e2bb2194202094a715906f91feb1c546893a5d835347f4869e7def2e360ace6616fb4340e38', 'gender': 0, 'keyword': 'абзар', 'audio': {'path': 'абзар_common_voice_tt_17737010.opus', 'array': array([2.03458695e-34, 2.03458695e-34, 2.03458695e-34, ..., 2.03458695e-34, 2.03458695e-34, 2.03458695e-34]), 'sampling_rate': 48000}}
每种语言的数据被分为训练集/验证集/测试集。
[需要更多信息]
数据来自Common Voice数据集。
Who are the source language producers?[需要更多信息]
[需要更多信息]
Who are the annotators?[需要更多信息]
该数据集由在线捐赠自己的人的声音组成。您同意不试图确定发言者的身份。
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
该数据集使用 CC-BY 4.0 许可,并可用于关键词识别和口语搜索的学术研究和商业应用。
@inproceedings{mazumder2021multilingual, title={Multilingual Spoken Words Corpus}, author={Mazumder, Mark and Chitlangia, Sharad and Banbury, Colby and Kang, Yiping and Ciro, Juan Manuel and Achorn, Keith and Galvez, Daniel and Sabini, Mark and Mattson, Peter and Kanter, David and others}, booktitle={Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 2)}, year={2021} }
感谢 @polinaeterna 添加了该数据集。