数据集:
cvssp/WavCaps
WavCaps是一个用ChatGPT辅助的弱标注音频字幕数据集,用于音频-语言多模态研究,其中音频剪辑来自三个网站( FreeSound 、 BBC Sound Effects 和 SoundBible )和一个声音事件检测数据集( AudioSet Strongly-labelled Subset )。
Data Source | # audio | avg. audio duration (s) | avg. text length |
---|---|---|---|
FreeSound | 262300 | 85.98 | 6.77 |
BBC Sound Effects | 31201 | 115.04 | 9.67 |
SoundBible | 1232 | 13.12 | 5.87 |
AudioSet SL subset | 108317 | 10.00 | 9.79 |
WavCaps | 403050 | 67.59 | 7.80 |
我们为每个数据源提供一个json文件。对于从网站获取的音频剪辑,我们提供处理后的字幕、原始描述以及其他元数据。对于来自AudioSet的音频剪辑,我们使用PANNs中的版本,其中每个文件名的开头都添加了一个“Y”。对于开始时间,请参考AudioSet SL子集的原始元数据。
flac格式的波形可以通过 Zip_files 目录下载。
可以通过 here 下载预训练模型。
如果解压缩时出现“错误:zip文件包含重叠组件(可能是zip炸弹)”,请尝试以下命令:
zip -F AudioSet_SL.zip --out AS.zip
unzip AS.zip
仅允许在WavCaps数据集上进行学术用途。通过在json文件中提供的链接下载音频剪辑,即表示您将仅将音频用于研究目的。有关FreeSound音频剪辑的积分,请参考其专页。
有关详细的许可证信息,请参考: FreeSound 、 BBC Sound Effects 、 SoundBible
我们提供的模型是根据英国非商业研究数据版权豁免条款创建的。
我们提供音频-语言检索、自动化音频字幕和零样本音频分类的代码和预训练模型。
如果您使用该数据集,请引用以下内容。
@article{mei2023wavcaps, title={WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research}, author={Mei, Xinhao and Meng, Chutong and Liu, Haohe and Kong, Qiuqiang and Ko, Tom and Zhao, Chengqi and Plumbley, Mark D and Zou, Yuexian and Wang, Wenwu}, journal={arXiv preprint arXiv:2303.17395}, year={2023} }