数据集:

cvssp/WavCaps

语言:

en

预印本库:

arxiv:2303.17395

许可:

cc-by-4.0

大小:

100B<n<1T
英文

WavCaps

WavCaps是一个用ChatGPT辅助的弱标注音频字幕数据集,用于音频-语言多模态研究,其中音频剪辑来自三个网站( FreeSound BBC Sound Effects SoundBible )和一个声音事件检测数据集( AudioSet Strongly-labelled Subset )。

统计信息

Data Source # audio avg. audio duration (s) avg. text length
FreeSound 262300 85.98 6.77
BBC Sound Effects 31201 115.04 9.67
SoundBible 1232 13.12 5.87
AudioSet SL subset 108317 10.00 9.79
WavCaps 403050 67.59 7.80

下载

我们为每个数据源提供一个json文件。对于从网站获取的音频剪辑,我们提供处理后的字幕、原始描述以及其他元数据。对于来自AudioSet的音频剪辑,我们使用PANNs中的版本,其中每个文件名的开头都添加了一个“Y”。对于开始时间,请参考AudioSet SL子集的原始元数据。

flac格式的波形可以通过 Zip_files 目录下载。

可以通过 here 下载预训练模型。

如果解压缩时出现“错误:zip文件包含重叠组件(可能是zip炸弹)”,请尝试以下命令:

zip -F AudioSet_SL.zip --out AS.zip

unzip AS.zip

许可证

仅允许在WavCaps数据集上进行学术用途。通过在json文件中提供的链接下载音频剪辑,即表示您将仅将音频用于研究目的。有关FreeSound音频剪辑的积分,请参考其专页。

有关详细的许可证信息,请参考: FreeSound BBC Sound Effects SoundBible

我们提供的模型是根据英国非商业研究数据版权豁免条款创建的。

相关任务的代码

我们提供音频-语言检索、自动化音频字幕和零样本音频分类的代码和预训练模型。

引用

如果您使用该数据集,请引用以下内容。

@article{mei2023wavcaps,
  title={WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research},
  author={Mei, Xinhao and Meng, Chutong and Liu, Haohe and Kong, Qiuqiang and Ko, Tom and Zhao, Chengqi and Plumbley, Mark D and Zou, Yuexian and Wang, Wenwu},
  journal={arXiv preprint arXiv:2303.17395},
  year={2023}
}