数据集:

google/MusicCaps

任务:

文本转语音

语言:

预印本库:

arxiv:2301.11325

许可:

cc-by-sa-4.0

数据集介绍文件清单

英文

MusicCaps 数据集卡片

数据集摘要

MusicCaps 数据集包含了 5,521 个音乐示例，每个示例都标有一个英语方面列表和一个由音乐家撰写的自由文本标题。一个方面列表的例子是“流行，尖锐的高音钹，柔和的钢琴旋律，高音女声旋律，持续脉冲音乐合成器引导音”，而标题由多个关于音乐的句子组成，例如

“一个低沉的男声在快节奏的鼓声中念着说唱，贝斯伴随着一种像吉他的旋律。这个录音的音质很差。背景中可以听到笑声。这首歌可能正在酒吧播放。”

这些文本仅关注描述音乐的声音，而不是元数据，如艺术家姓名。

标记的示例是来自于 AudioSet 数据集的 10s 的音乐片段（评估集 2,858 个和训练集 2,663 个）

使用此数据集时，请引用相应的论文： http://arxiv.org/abs/2301.11325 （DOI：10.48550/arXiv.2301.11325）

数据集用法

发布的数据集采用 .csv 文件的形式，其中包含 YouTube 视频的 ID 和它们的开始/结束时间戳。为了使用此数据集，必须下载相应的 YouTube 视频并根据开始/结束时间戳进行切分。

以下存储库提供了一个示例脚本和笔记本来加载这些片段。笔记本还包括一个 Gradio 演示，可以帮助探索一些示例： https://github.com/nateraw/download-musiccaps-dataset

支持的任务和排行榜

[需要更多信息]

语言

[需要更多信息]

数据集结构

数据实例

[需要更多信息]

数据字段

ytid

YT ID 指向 YouTube 视频，其中包含标记的音乐片段。您可以通过打开 https://youtu.be/watch?v={ytid}&start={start_s} 来收听该片段。

start_s

音乐开始的 YouTube 视频中的位置。

end_s

音乐结束的 YouTube 视频中的位置。所有片段都是 10 秒长。

audioset_positive_labels

该片段来自 AudioSet（ https://research.google.com/audioset/ ）数据集的标签。

aspect_list

描述音乐的方面列表。

caption

描述音乐的多句自由文本标题。

author_id

通过作者将样本进行分组的整数。

is_balanced_subset

如果该值为 true，则该行是平衡流派的 1k 子集的一部分。

is_audioset_eval

如果该值为 true，则该片段来自 AudioSet 的评估集。否则，它来自 AudioSet 的训练集。

数据拆分

[需要更多信息]

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

谁是源语言的制作者？

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁？

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划人

此数据集由 @googleai 分享

许可信息

该数据集的许可证为 cc-by-sa-4.0

引用信息

[More Information Needed]

贡献

[需要更多信息]

作者:

google

数据集大小:

2.81 MB