数据集:
google/MusicCaps
MusicCaps 数据集包含了 5,521 个音乐示例,每个示例都标有一个英语方面列表和一个由音乐家撰写的自由文本标题。一个方面列表的例子是“流行,尖锐的高音钹,柔和的钢琴旋律,高音女声旋律,持续脉冲音乐合成器引导音”,而标题由多个关于音乐的句子组成,例如
“一个低沉的男声在快节奏的鼓声中念着说唱,贝斯伴随着一种像吉他的旋律。这个录音的音质很差。背景中可以听到笑声。这首歌可能正在酒吧播放。”
这些文本仅关注描述音乐的声音,而不是元数据,如艺术家姓名。
标记的示例是来自于 AudioSet 数据集的 10s 的音乐片段 (评估集 2,858 个和训练集 2,663 个)
使用此数据集时,请引用相应的论文: http://arxiv.org/abs/2301.11325 (DOI:10.48550/arXiv.2301.11325)
发布的数据集采用 .csv 文件的形式,其中包含 YouTube 视频的 ID 和它们的开始/结束时间戳。为了使用此数据集,必须下载相应的 YouTube 视频并根据开始/结束时间戳进行切分。
以下存储库提供了一个示例脚本和笔记本来加载这些片段。 笔记本还包括一个 Gradio 演示,可以帮助探索一些示例: https://github.com/nateraw/download-musiccaps-dataset
[需要更多信息]
[需要更多信息]
[需要更多信息]
YT ID 指向 YouTube 视频,其中包含标记的音乐片段。您可以通过打开 https://youtu.be/watch?v={ytid}&start={start_s} 来收听该片段。
start_s音乐开始的 YouTube 视频中的位置。
end_s音乐结束的 YouTube 视频中的位置。所有片段都是 10 秒长。
audioset_positive_labels该片段来自 AudioSet( https://research.google.com/audioset/ )数据集的标签。
aspect_list描述音乐的方面列表。
caption描述音乐的多句自由文本标题。
author_id通过作者将样本进行分组的整数。
is_balanced_subset如果该值为 true,则该行是平衡流派的 1k 子集的一部分。
is_audioset_eval如果该值为 true,则该片段来自 AudioSet 的评估集。否则,它来自 AudioSet 的训练集。
[需要更多信息]
[需要更多信息]
[需要更多信息]
谁是源语言的制作者?[需要更多信息]
[需要更多信息]
注释者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
此数据集由 @googleai 分享
该数据集的许可证为 cc-by-sa-4.0
[More Information Needed]
[需要更多信息]