数据集:

DISCOX/DISCO-10M

许可:

cc-by-4.0

数字对象标识符:

10.57967/hf/0754

其他:

music

预印本库:

arxiv:2306.13512

大小:

10M<n<100M

语言:

en
英文

开始使用

您可以使用HuggingFace下载数据集:

from datasets import load_dataset
ds = load_dataset("DISCOX/DISCO-10M")

数据集结构

数据集包含以下特征:

{
 'video_url_youtube',
 'video_title_youtube',
 'track_name_spotify',
 'video_duration_youtube_sec',
 'preview_url_spotify',
 'video_view_count_youtube',
 'video_thumbnail_url_youtube',
 'search_query_youtube',
 'video_description_youtube',
 'track_id_spotify',
 'album_id_spotify',
 'artist_id_spotify',
 'track_duration_spotify_ms',
 'primary_artist_name_spotify',
 'track_release_date_spotify',
 'explicit_content_spotify',
 'similarity_duration',
 'similarity_query_video_title',
 'similarity_query_description',
 'similarity_audio',
 'audio_embedding_spotify',
 'audio_embedding_youtube',
}

DISCO-10M 是什么?

DISCO-10M 是一个用于音乐大规模机器学习模型研究的数据集,旨在推动音乐领域研究的分享与发展。

由于版权法的限制,该数据集不包含任何音乐内容。音频嵌入特征是使用 Laion-CLAP 计算得出的,可以在许多下游任务中替代原始音频。如果需要原始音频,则可以通过提供的Spotify预览URL或YouTube链接下载。DISCO-10M数据集通过从Spotify收集了40万个艺术家ID和260万个音轨ID,并收集与音轨长度、艺术家名称和音轨名称匹配的YouTube视频链接来创建。这些匹配是使用以下三个相似度度量计算得出的:

  • 长度相似度:1 - abs(音轨时长_Spotify - 视频时长_YouTube) / max(音轨时长_Spotify, 视频时长_YouTube)
  • 文本相似度是通过搜索查询嵌入和视频标题嵌入之间的余弦相似度以及搜索查询嵌入和视频描述嵌入之间的余弦相似度计算得出的。嵌入是使用 Sentence Bert 计算得出的。
  • 音频相似度是通过Spotify预览片段音频嵌入和YouTube音频嵌入之间的余弦相似度计算得出的。

对于DISCO-10M,我们仅保留满足以下条件的样本:duration_similarity > 0.25 且 (description_similarity > 0.65 或 title_similarity > 0.65) 且 audio_similarity > 0.4

我们提供基于DISCO-10M的三个子集:

  • DISCO-10K-random :整个数据集的随机样本的小子集。
  • DISCO-200K-random :随机样本的子集,对整个数据集进行轻量级且具有代表性的分析很有用。
  • DISCO-200K-high-quality :严格筛选的样本子集,以确保Spotify音轨与YouTube视频之间具有更高质量的匹配。

要引用我们的工作,请参考我们的论文 here