WavCaps

WavCaps是一个用ChatGPT辅助的弱标注音频字幕数据集，用于音频-语言多模态研究，其中音频剪辑来自三个网站（ FreeSound 、 BBC Sound Effects 和 SoundBible ）和一个声音事件检测数据集（ AudioSet Strongly-labelled Subset ）。

Paper: https://arxiv.org/abs/2303.17395
Github: https://github.com/XinhaoMei/WavCaps

统计信息

Data Source	# audio	avg. audio duration (s)	avg. text length
FreeSound	262300	85.98	6.77
BBC Sound Effects	31201	115.04	9.67
SoundBible	1232	13.12	5.87
AudioSet SL subset	108317	10.00	9.79
WavCaps	403050	67.59	7.80

下载

我们为每个数据源提供一个json文件。对于从网站获取的音频剪辑，我们提供处理后的字幕、原始描述以及其他元数据。对于来自AudioSet的音频剪辑，我们使用PANNs中的版本，其中每个文件名的开头都添加了一个“Y”。对于开始时间，请参考AudioSet SL子集的原始元数据。

flac格式的波形可以通过 Zip_files 目录下载。

可以通过 here 下载预训练模型。

如果解压缩时出现“错误：zip文件包含重叠组件（可能是zip炸弹）”，请尝试以下命令：

zip -F AudioSet_SL.zip --out AS.zip

unzip AS.zip

许可证

仅允许在WavCaps数据集上进行学术用途。通过在json文件中提供的链接下载音频剪辑，即表示您将仅将音频用于研究目的。有关FreeSound音频剪辑的积分，请参考其专页。

有关详细的许可证信息，请参考： FreeSound 、 BBC Sound Effects 、 SoundBible

我们提供的模型是根据英国非商业研究数据版权豁免条款创建的。

引用

如果您使用该数据集，请引用以下内容。

@article{mei2023wavcaps,
  title={WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research},
  author={Mei, Xinhao and Meng, Chutong and Liu, Haohe and Kong, Qiuqiang and Ko, Tom and Zhao, Chengqi and Plumbley, Mark D and Zou, Yuexian and Wang, Wenwu},
  journal={arXiv preprint arXiv:2303.17395},
  year={2023}
}

作者:

cvssp

数据集大小:

405.49 GB

WavCaps

统计信息

下载

许可证

相关任务的代码

引用